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INTRODUCTION 


La théorie de l'information a connu un essor rapide depuis la pa- 
rution du mémoire fondamental de SHANNON. Née de l'étude du pro- 
blème des communications, elle trouve des applications dans des do- 
maines très différents comme la psychologie, la linguistique ou la gé- 
nétique. André et Denis GABOR (1954) s'en sont même inspirés pour 
entreprendre un travail aussi délicat que l'élaboration d'une théorie 
mathématique de la liberté. Mais malgré cet essor rapide les fonde- 
ments de cette théorie restaient assez obscurs . Différents auteurs 
parmi lesquels nous citerons FORTET (1951), Mc MILLAN (1953) et 
KHINTCHINE (1953, 1956) remédièrent à cet état de choses. Les deux 
articles de KHINTCHINE constituent, à notre avis, l'exposé le meil- 
leur et le plus complet de la théorie de SHANNON. 


Dans notre premier chapitre, introduction à la théorie de SHAN- 
NON, nous montrons que les deux concepts de base de la théorie, à sa- 
voir l'entropie et lacapacité, sont liés à deux problèmes de codage dif- 
férents, et qu'en ce qui concerne le théorème dit fondamental, c'est le 
concept de capacité quiest seul en jeu. A titre d'exemple, nous considé- 
rons le cas simple d'uné ligne binaire symétrique pour lequelnous don- 
nons une nouvelle démonstration du théorème fondamental. 


Ce dernier ne traite que du comportement asymptotique du sys- 
tème. Selon ce théorème, il existe des codes tels que si la longueur 
des messages augmente suffisamment l'erreur de transmission dimi 
nue et disparait à la limite. Mais la démonstration de l'existence de 
tels codes ne résout en rien le problème pratique de leur construction. 
De ce point de vue pratique le cas le plus important (qui est aussi le 
cas le plus simple) est celui d'une ligne de transmission n'utilisant 
comme messages que les suites formées de deux symboles 0 et 1. La 
recherche des codes dans ce cas, appelée problème du codage binaire, 
est étudiée dans le chapitre II. Puisqu'iln'existe aucune étude systé- 
matique de ce problème, malgré le nombre assez grand de travaux qui 
lui ont été consacrés, il nous a semblé utile d'en reprendre l'étude dès 
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la forme originelle dans laquelle il a été posé pour la première fois par 
HAMMING (1950). Il s'agit en effet de considérer l'espace des messa- 
ges comme un groupe abélien d'ordre 2" et du type (1,1,...,1). On dé- 
finit sur ce groupe une métrique et le problème du codage devient la 
recherche des sous-ensembles tels que la distance entre deux éléments 
quelconques de ce sous-ensemble soit supérieure ou égale à un nom- 
bre déterminé, (code à distance donnée). On définit ensuite le code op- 
timal. Nous avons démontré qu'il existe toujours un code optimal qui 
soit un sous-groupe. L'étude des propriétés de ces codes particuliers 
qui sont des sous-groupes révèle la liaison entre le problème du coda- 
ge et celui de la décomposition des groupes abéliens dutype considéré. 
En effet tout théorème sur la décomposition aurait son analogue pour le 
problème du codage. Deux théorèmes de cet ordre dus à ZAREMBA 
(1952) sont considérés à titre d'exemple. Le chapitre se termine par 
deux inégalités nouvelles sur le nombre d'éléments du code optimalle 
plus grand. Ces inégalités sont plus simples et la seconde donne des 
résultats beaucoup plus précis que ceux connus jusqu'à présent. 


Dans le chapitre III nous envisageons la possibilité de généraliser le 
théorie de SHANNON aux espaces abstraits. Nous définissons une ligne 
de transmission comme un espace mesurable (Y, V) sur lequel est dé- 
finie une mesure de probabilité v, pour tout point x appartenant à un 
autre espace mesurable (X&). La capacité d'une ligne est définie en 
général à partir de la fonction d'entropie. Or il n'est pas possible de 
définir l'entropie dans le cas général étudié ici. Une définition de la 
capacité qui ne ferait pas intervenir la fonction d'entropie est pourtant 
possible et elle constitue le point de départ de ce chapitre. Ayant ainsi 
défini la capacité nous démontrons un théorème analogue au théorème 
fondamental de SHANNON. 


Le dernier chapitre est consacré à un examen de la notion d'infor- 
mation en statistique mathématique. L'information de FISHER était déjà 
connue des statisticiens mais c'est la théorie de SHANNON-WIENER 
(et surtout la remarque de WIENER (1948, p. 76) que son information 
pourrait remplacer celle de FISHER) qui a attiré l'attention sur le con- 
cept même. Plusieurs auteurs ont essayé de montrer l'unité entre l'in- 
formation de FISHER et celle de SHANNON-WIENER. SCHUTZENBER- 
GER (1954), allant plus loin a démontré que ‘toute information est la 
valeur moyenne, étendue à l'ensemble des états de la résultante d'un 
opérateur linéaire S sur le logarithme de la probabilité à priori de cha- 
que état. ... L'opérateur S doit être tel que l'information correspon- 
dante soit toujours positive ou nulle". (p.43). La théorie de SCHUT - 
ZENBERGER quoique menant à des résultats d'une extrême généralité, 
a le défaut, comme toute théorie axiomatique de l'information (voir 
par exemple BARNARD (1951)), d'imposer des conditions trop restric- 
tives au départ et de ne traiter que du cas discret. Nous avons donc réé- 
tudié cette question d'un point de vue différent. 
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Par analogie avec l'information de FISHER, nous considérons 
toute information comme une fonction numérique positive, définie par 
rapport à un espace mesurable (appelé espace d'observation), additive 
pour les observations indépendantes et invariante sous lestransforma- 
tions qui sont des résumés exhaustifs, Ce ne sont là que des propriétés 
générales et, pour qu'elle ait un sens en statistique mathématique, l'in- 
formation doit avoir, en plus, le caractère d'un ‘'renseignement'' sur 
un problème précis. Prenons l'information de FISHER ; elle a, à part 
ces propriétés générales, une signification importante pour le problème 
de l'estimation des paramètres ; elle nous renseigne sur la précision 
que l'on peut atteindre. Mais l'information de FISHER perd ce caractère 
d'un renseignement dès qu'il s'agit d'un problème autre que celui de 
l'estimation. Ilétait donc utile de voir qu'il n'existerait pas des fonctions 
qui tout en ayant les propriétés générales d'une information apporte- 
raient aussi des ‘'renseignements'' sur d'autres problèmes de statisti- 
que mathématique. 


Deux cas ont été étudiés, celui du test d'hypothèse et celui de la 
discrimination. Nous avons démontré que l'information de SHANNON- 
WIENER pourrait être utilisée comme information de test d'hypothèse, 
et la fonction de ‘'divergence"" entre deux lois de probabilité proposée 
par CHERNOFF (1952) comme information de discrimination. Signa- 
lons que cette dernière ne revêt pas la forme générale d'une informa- 
tion telle que l'a énoncée SCHUTZENBERGER. 
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CHAPITRE | 


LE THÉORÈME FONDAMENTAL 
DE LA THÉORIE DE L'INFORMATION : CAS DISCRET 


LA NOTION D'ENTROPIE : 


Soit À une épreuve et soient : AÀ,, À,, ..., À, les évènements 
aléatoires liés à & et formant un système exhaustif. Si : 


pa Pr, (A) 1 MAL PAM À Real 19, > Ü} Sp, =1 


sont les probabilités des évènements A;, on appelle entropie du sys- 
tème € la quantité : 


H(CUYE pl og D, 

Onsait queH = 0 si, et seulement si, toutesSles probabilités p. 
sauf une sont égales à zéro et que H est positive dans tous les autres 
cas. D'autre part, pour une valeur donnée de n, H atteint son maxi- 
mum pour : 

PP ee pie 1/n 
et dans ce cas : Hs Log n. 
Soient « et @ deux épreuves et soient : 
PRESS US 
Born UD, 


les évènements aléatoires liés respectivement à A et à. 


Désignons par «& i8 l'épreuve composée ayant pour évènements 
aléatoires liés, les évènements composés : 


AB; ; EAP 2 0m 1 = 1425.00 
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Désignons par H(a), H(®) et H(a &@) les trois entropies correspondan- 
tes. Alors si les épreuves & et (@ sont indépendantes, telles que : 


Pr(A;B) SATA (A) Pr(B) : on a : 
H(A@) = H(&) + H(@). 
Par contre, si les épreuves « et «@ sont liées, et si l'on a : 
PA) = Pr (AN Er (B;/A:;) 
on définit l'entropie conditionnelle de @ par rapport à ( comme 
AIRE D Pr(A;) ÿ Pr(B;/A;) Log Pr(B;/A:) 
D'une façon analogue x définit l'entropie conditionnelle de & par 
rapport à @, H à (&) et on a : 
H(a &) = H(Q) + H à (@) = H(@) + H 3 (EE 


La fonction d'entropie H possède des propriétés remarquables 
dont une des plus importantes est la suivante. 


Soit H(p,, P,, -.. , p,) une fonction continue par rapport à tou- 
tes ses variables, définie pour tout p, >0, > p = fret pourtouten- 
tier positif fini n. Si : 


(i) pour toute valeur donnée de n, H atteint son maximum pour 
DE Da D 
(ii) H(& SG) = H (&) + H 4 (@) (dans le sens défini plus haut) 
(iii) H(D;5 D: 00 D C0) HR DRE UD 
alors : HP De DS D p, Log p. 


où À est une constante positive. (Pour la démonstration voir Khint- 
chine (1953)). 


ENTROPIE D'UNE SOURCE : 


Dans le langage de la théorie des communications, une source 
estun processus stochastique fini et discret. On appelle ‘'alphabet'' de 
la source l'ensemble fini À des états a,, a,, ..., a, que peut prendre 
le système, Les a; sont des "lettres" de l'alphabet A, et les suites 


L'INFORMATION EN STATISTIQUE MATHÉMATIQUE 89 


formées de ces lettres constituent les ‘'messages'' ou la production 
de la source. 


Soit n, un nombre entier positif donné, et considérons les sui- 
tes : 


x not lo»: s"XnS+ nn ; X.E À, 


n » 
| 


[o] 


Pour n, et n donnés, l'ensemble de toutes les suites de cette 
forme est un ensemble fini ayant m" éléments. Cet ensemble a une loi 
de probabilité bien définie et possède donc une entropie. Soit H(n,,n) 
l'entropie de cet ensemble de probabilités. On définit alors l'entropie 


du processus à partir de l'instant n comme : 
HN) Es Lio (l/n) H(n;;"n); 
n > © 
si cette limite existe. 


Shannon dans son mémoire n'avait étudié que des sources qui 
sont des processus de Markoff réguliers pour lesquels l'entropie H 
est donnée par : 


HER P; p;;,LOogp,,, 
où IP, 


est la matrice des probabilités de transition, et les P sont des pro- 
babilités à priori. 


Mc Millan (1953) a étendu cette définition à un processus discret 
fini ergodique (non-nécessairement markovien) sous l'hypothèse que 
le processus est en cours depuis - ©. Il a démontré que sous l'hypo- 


thèse d'ergodisme le processus avait une entropie bien définie. 


La définition que nous avons donnée ci-dessus est due à Fortet 
(1951). Remarquons que si le processus est stationnaire la limite H(n,) 
ne dépend pas de n, de telle sorte que nous pourrons parler tout sim- 
plement de l'entropie H de la source. En général on ne considère que 
les sources stationnaires. Leur importance est montrée par le théo- 
rème suivant dont la démonstration est empruntée à Khintchine (1956). 


THEOREME I - 
Toute source stationnaire possède une entropie. 


Soit, en effet, A,,, l'ensemble de tous les messages de longueur 
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n+mi(n, m arbitraires). Désignons par H(A,) l'entropie de l'ensem- 
ble A,. Sous l'hypothèse de stationnarité, cette entropie est une fonc- 
tion de r seulement. On a évidemment : 


H(A en) F H(A,) ii H, (A5) 
et HACA D) CHAR c'est-à-dire : H(A,) <H(A,,,) < H(A,) +H(A,) 
que nous écrirons : 


ÉLESNE 


n n+m 


Sr FAETAETSR En particulier : 
et HE RER 
k étant un nombre entier positif quelconque. Et finalement : 
CLYEPERSE 
ce qui démontre que : 


Lim Inf (1/n) H, existe. Soit: 


Nu 100 


Lim Inf(1/n)H,=a<+o, 


n > œ 


Pour un nombre positif e« arbitrairement petit on peut choisir 
un indice q tel que : 


(HIDE 
Soient maintenant n >q, et k le nombre entier positif défini par 
(KES) ane ka: 
On a alors : H,<H,,,0 c'estrasdires 


H 
(LA, <s . 


a ES 
Ge 1)q SEC Dés a ae 


CO 


Par conséquent, pour n suffisamment grand, 


ne RE 


(SR 2 


k 
(Es) g © (FUN ONE RUE 
Comme # est arbitrairement petit, on a : 


Lim (1/n)H, =a 


ét lethéorème estidémontre. 
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Nous voyons donc que pour que l'entropie existe il suffit que la 
source soit stationnaire. Pourtant, pour la théorie des communica- 
tions il faut supposer, en outre, que la source est ergodique. En ce 
qui concerne les applications, l'ercodisme est la propriété la plus 
importante. Les sources ergodiques possèdent ce que nous appelle- 
rons D Dies Mc Millan la propriété de répartition asymptotique uni- 
forme (‘'Asymptotic equi- partition property"). Cette propriété est énon- 
cée dans le théorème suivant. 


THEOREME 2 - 


Soient e, n deux nombres positifs arbitrairement petits. Pour 
n suffisamment grand les messages de longueur n d'une source d'en- 
tropie H se répartissent en deux catégories. Pour tout message C de 
la première catégorie (appelé message de probabilité forte) on a : 


| RES LH 


L'ensemble des messages de la seconde catégorie (appelés messages 
de probabilité faible) a une probabilité inférieure à n. 


Eneffet, on démontre que sous l'hypothèse d'ergodisme les fonc- 
tions : 


f, = -(1/n) Log Pr(C) 
tendent en probabilité vers H, d'où le théorème. 


L'importance de ce théorème réside en ceci : Etant donnée une 
source ergodique d'entropie H, pour n suffisamment grand, parmi les 
messages de longueur n, onn'a qu'à considérer les messages de la pre- 
mière catégorie. Ces messages ont tous, approximativement, la même 
probabilité a", et leur nombre est donc à peu près égal à a", a étant 
la base du système de logarithmes adopté. 


La propriété de répartition asymptotique uniforme conduit à ce 
que nous appellerons le premier problème du codage, pour le distin- 
guer du problème du codage lié à la notion de capacité d'une ligne de 
transmission. Celui-ci sera appelé le second problème du codage. Il 
est nécessaire de faire cette distinction car les deux méthodes répon- 
dent à deux exigences différentes, la première à celle d'économie, la 
seconde à celle de la réduction de l'erreur d'identification. 


Supposons que l'on ait une source d'entropie H ayant pour l'alpha- 
bet À les m lettres : 
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à ; ÉD 0 OC 


et un autre alphabet B ayant s lettres : 


b 


bidbsas.s020he 


1° 

Le premier problème du codage est un problème de "traduction". 
Il s'agit d'établir une correspondance bi-univoque entre les messages-A 
et les messages-B, c'est-à-dire entre les suites formées des symbo- 
les a; et les suites formées des symboles b;,, telle que la longueur 
moyenne des messages-B soit aussi petite que possible. C'est ce que 
nous avons appelé l'exigence d'économie. 


Considérons les suites C, de longueur n de la forme : 


LR se Sr TRS 


a EL 
Supposons que notre code associe à chacune de ces suites C, une 
suite de la forme : 


YA P EE Mst EU € B de longueur N(C,). 


Nous appellerons coefficient de contraction (cf. Khintchine (1953)) la 
quantité : 


u = lim (1/n) > Pr(C,) N(C,) 


n > œ 
CA 


Nous avons alors le théorème suivant : 


THEOREME 3 - 
Pourtoutcode  onas 
SH /(Eos she, 


et pour tout nombre positif arbitrairement petit n il existe un code tel 
que : 
Hu <(H +n)/(Logs). 


Remarquons que dans le cas/où s (le nombre de lettres dans l'al- 
phabet B) est égal à m, la borne inférieure du coefficient de contrac- 
tion est égal à H/(Log m). Le dénominateur est la valeur maximum de 


H, et cette quantité est donc aussi appelée le rapport d'entropie (''en- 
tropy ratio"). 


D'habitude on n'énonce ce théorème que pour le cas où les deux 
alphabets A et B ont le même nombre de lettres, mais la démonstration 
(cf. Khintchine (1953)) s'étend facilement au cas ci-dessus. 


| Avant d'en arriver au second problème du codage il nous faut dé- 
finir la notion de capacité d'une ligne de transmission. 
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CAPACITE D'UNE LIGNE DE TRANSMISSION : 
Une ligne de transmission est un système constitué par : 
(i) Un ensemble fini À d'éléments : a,, Are se 1 


(ii) Un ensemble fini B d'éléments : b.,, b,, ... , b.: 


109 22 s 
(iii) Une famille de lois de probabilité conditionnelle : Pr(b;/a;) 


définies pour tout a; © A et pourtout b, € B. L'ensemble A est appelé 
l'alphabet à l'entrée ; de même Best appelé l'alphabet à la sortie. Les 
suites de lettres a. et b; forment respectivement les messages à l'en- 
trée et à la sortie. La famille de lois de probabilité conditionnelle cons- 
titue le "bruit" qui fait que tout message transmis est défiguré par ce 
bruit selon la loi de probabilité qui le définit. 


Simaintenant les lettres a, sont choisies selon une loi de proba- 
bilité donnée, soit : 


RIDE PDT PDT (Sr) d 


on peut définir les entropies H(A), H(B), H (B), He(A) ERA B): 


On appelle débit de transmission la quantité : 


R(P) = H(A) + H(B) - H(AB) 
= H(A) - H,(A) 
= H(B) - H,(B). 


Soit maintenant & la classe de toutes les lois de probabilité P 
que l'on peut définir sur l'ensemble A. Cette classe dépendra évidem- 


ment de la ligne. On appelle capacité de la ligne la quantité : 
C = Sup R(P) 
MENT 
Considérons maintenant les messages à l'entrée et à la sortie, 
c'est-à-dire les suites de la forme : 


+ ren 
Y; > JE CRU n ; y, B 


Nous supposerons que les x; d'un message à l'entrée sont choi- 
sis indépendamment l'un de l'autre. Tout message : 
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x = (Xe) 
définit une probabilité conditionnelle sur l'ensemble des messages 


= (VTT 


Le problème qui se pose maintenant est de trouver une métho- 
de qui permettrait pour tout message y à la sortie d'identifier le mes- 
sage x à l'entrée de telle sorte que l'erreur d'identification soit réduite 
au minimum. C'est en quoi consiste le second problème du codage. 


Plus précisément, sit, est l'ensemble de tous les messages de 
longueur n à l'entrée, on croit qu'en se limitant à l'emploi d'une par- 
tie seulement des messages possibles €, on peut réduire l'erreur. En 
d'autres termes on croit pouvoir augmenter l'efficacité d'identification 
en faisant sacrifice de l'économie. 


Le problème est donc de choisir un sous-ensemble &* de, tel 
que, si les messages à l'entrée sont soumis à la condition d'apparte- 
nirà@”, onpuisse, en prenant n suffisamment grand, rendre l'erreur 
d'identification aussi petite que l'on veut. Evidemment le choix de l'en- 
tier n et du sous-ensemble de dépendra de la méthode d'identification 
adoptée d'une part et duniveau de certitude que l'on veut atteindre d'au- 


tre part. 


L'importance de la notion de capacité pour ce second problème 
du codage est révélée par le théorème appelé, d'après Shannon, le théo- 
rème fondamental. Ce théorème a pour objet de démontrer qu'étant 
donné €, un nombre positif arbitrairement petit, on peut choisir l'en- 
semble“, tel que, pour n suffisamment grand, l'erreur d'identifica- 
tion soit inférieure à e et que (1/n) Log N soit aussi proche de la capa- 
cité C que l'on veut, N étant le nombre d'éléments de l'ensemble,” . 


Shannon dans sa démonstration du théorème fondamental montre 
que l'on peut rendre l'erreur d'identification arbitrairement petite, en 
prenant n suffisamment grand, si parmi les messages &, on choisit au 
hasard un nombre N < a" (a étant la base du système de logarithmes }) 
et que cela n'est pas possible pour N > a", L'identification se fait d'a- 
près le principe du maximum de probabilité à posteriori, c'est-à-dire 
que pour tout message y à la sortie on prend comme message à l'en- 
trée le message x pour lequel Pr(x/y) est le maximum. 


Feinstein (1954) a donné une autre démonstration. Le théorème 
démontré par lui est un théorème d'existence, c'est-à-dire qu'il ne 
fournit pas une méthode pour choisir le sous-ensemble(\* . Il démontre 
simplement qu'il existe un sous-ensemble * de &, tel que pour tout 
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message x;EA* ilexisteun sous-ensemble E; de l'ensemble des mes- 
sages à la sortie ayant les propriétés suivantes : 


(DENE :9 ,ifi, 
(ii) Pr (E,/x;) >1-e , e > O0 (arbitrairement petit) 


et que le nombre d'éléments de (l* tend vers a” lorsque n—3®, Tout 
message à la sortie appartenant à E, étant supposé provenir de x; on 
voit que l'erreur d'identification est inférieure à e.et ceci pour toute 
loi de probabilité à priori selon laquelle sont choisis les messages à 


l'entrée x,E 4, * 


Dans les énoncés du théorème fondamental que l'on trouve dans 
la littérature, on fait intervenir à la fois les deux notions, celle de 
l'entropie d'une source et celle de la capacité d'une ligne. On démon- 
tre que la production d'une source d'entropie H ne peut être transmise 
par une ligne de capacité C avec erreur arbitrairement petite que si 
H <C. Mais en fait toute démonstration se fait en deux étapes. On dé- 
montre d'abord que, pour n grand, on peut choisir un sous-ensemble 
de a°° messages à l'entrée tel que l'identification de ces messages soit 
possible avec une erreur infiniment petite. Puis on démontre que l'on 
peut établir une correspondance bi-univoque entre la production de la 
source etce sous-ensemble. Une condition implicite (mais à notre con- 
naissance jamais exprimée) dans toutes ces démonstrations, c'est que 
cette correspondance est établie entre les messages de même longueur. 
Sous une telle condition, il est évident, d'après la propriété de répar- 
tition asymptotique uniforme (on ne s'occupera que des a" messages 
de probabilité forte), que cette correspondance ne peut s'établir que 
POUMHPEEC: 


LA LIGNE BINAIRE SYMETRIQUE : 


Nous donnerons maintenant une démonstration du théorème fon- 


damental pour le cas d'une ligne binaire sy métrique. Ce cas, le plus 
simple, est aussi le plus important pour les applications. 


L'espace des messagestransmis et celui des messages reçus est 
constitué alors par les suites de longueur n formées de deux symboles 0 
et 1.Pour n donné cet espace contient 2" points ou éléments. La probabi- 
lité d'erreur est la même pour les deux symboles, c'est-à-dire que la 
probabilité conditionnelle pour que le symbole 1 soit reçu lorsque 0 
est transmis ou que 0 soit reçu lorsque 1 est transmis est la même. 
De plus cette probabilité est la même pour tous les n symboles de la 
suite qui constitue un message. D'où le nom de la ligne binaire symé- 
trique. Comme il est de coutume dans ce cas, nous prendrons le nom- 
bre 2 comme base du système de logarithmes. 


96 Devi Datt JOSHI 


Désignons par C, l'espace des messages et soient : 


les éléments de C.. Soit p la probabilité d'erreur de transmission. Si 
l'on désigne par P° la probabilité conditionnelle pour qu'il y ait au plus 
r (< n) erreurs lorsque le message a, est transmis, on a : 


On voit que cette probabilité ne dépend pas de a, lemessage transmis. 


Soit maintenant E° le sous-ensemble de C, constitué par les sui- 
tes qui ne diffèrent de la suite a; que dans au plus r positions. E; est 
donc l'ensemble des messages reçus lorsqu'il y a au plus r érrous 
dans la transmission du message A. L'ensemble E; contient : 


GeGrene) 


éléments différents et on voit que 2 n'est que la probabilité condition- 
nelle qu'après latransmission du message a;, le message reçuse trouve 
dans E: ; 


BP PE (Se) 


Supposons maintenant que pour un nombre positif e arbitrairement 
petit on choisit n et r tels que : 


r 


SES PCR 


Cela estioujours possible car, d'après le théorème de Bernoulli, 
on sait que pour À >p: 


Y (2) ppt 1 


lorsque n—w . Supposons, en outre, qu'ilexiste des points PRE 9 6 0 5 Ex 
de C,; tels que les ensembles correspondants E: sont de à deux dis- 


joints. Sices N messages sont transmis avec une distribution arbitraire 
des probabilités à priori : 


P,; P, ; LP AE à 2: P, 


etsil'onideniifie tout message reçu appartenant à E: avecia, l'erreur 
totale de décodage sera : 
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N N 

SODILE PPS ND eut €. 

i=1 Euh 
c'est-à-dire que l'erreurtotale sera inférieure à &. Nous pouvons main- 
tenant énoncer le théorème fondamental, 


THEOREME 4 - 


Soit. C la capacité et soit p < (1/2). Si N est la borne supérieure 


de N 
Lim (1/n) LogN=cC 
Notons d'abord que, pour n et r donnés, tout ensemble E: con- 
Hent.: 


FRIQERETE 


points. La borne supérieure N du nombre de points que l'on peut choi- 
sir tel que les ensembles correspondants E: soient deux à deux dis- 
joints, est donc donnée par : 


N - 


Or, nous avons, pour r < (n/2) : 


CRE bn (ner) 


Ainsi donc : 

EE)  () 

D'autre part, la capacité C est donnée par : 
CE DILOmD re GdNEOgIq ME -"p 


Nous avons supposé p< (1/2). On peut donc choisir un nombre 
x (p < «x <1/2)tel que, pour un nombre positif arbitrairement petit n on 


Ait: 


Cine CG Loget+ piLog Pac, PR IENX 
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D'après le théorème de Bernoulli on a : 


Lim ÿ 4) pq" = 1 


n >œ@ m=0 


c'est-à-dire qu'étant donné €, un nombre positif arbitrairement petit, 
on peut trouver un nombre entier n.,, tel que : 


na 
De) PTE pour tout n >n,. 
m=0 


Donc pour £: donné, on peut choïsir n puis r = na tels que : 
pisse 
N étant définie comme plus haut, on a : 
2 22 
Ceres . An 
B-a G à) Ka 


Si l'on prend les logarithmes (toujours à base 2), on a : 


Zè 


n - Log ——- - Log (a) < Log N <n- Log Ce) 


Nous utiliserons ensuite l'approximation suivante (l'approximation de 
Stirling) : 


5 1 
Ca) n’*1/2 e n <n ! £ (2 7) 1/2 (a HSE e” n+1/2) 


Cela donne : 


- (1/2)(Log e + Log 2x) - (1/2) Log n +(n+1/2) Log(1+) - 


- n(aLoga+p Logf)-(1/2) Log ap > Log(®.)> - (1/2) Log 2x +Loge - 


- (1/2) Logn-n(a Log a +8 Log 8) - (1/2) Log af - (na +3) Log (1 + _ )- 
[04 
-(nB +3) Log (1 +=) 
2 2np 


Et finalement on a : 


B 
n(1 + a Log « + BLogB) - pores Log e + Log 2 r)+2 Log nn 
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1 1 L N 
Din +) Log (1 +37) t2 Loge < Log N <n(1 +aLog a + BLogB) + 


1 1 1 1 
HP O0 2 TE _ ee il, 1 
2 og 27% Loge +, Logn+- Log «ap MOSS) OR CIRE) 
+ (np + Log (1+——) 
2 SIN 


En divisant par n et en mettant : 
ISO OS 6 ILONR = \C!\ 
On obtient : 


(k/n) +(1/2n) Logn- (1 +) Log (1 + < (1/n) Log N CU 


1e 1 1 1 
<(k'/n) +(1/2n) Logn + (a+ 7) Log (1 + D) +(B + 2) Log(1+ TL L 


c'est-à-dire : 


Lim (1/n) Log N =C' 
n + 
Mais on a : 
CÉMIICGRC 
et comme n est arbitraire, on a : 
Lim (1/n) Log N=C 


n > 


ce qui démontre le théorème. 


Remarquons que nous avons seulement démontré que c'est la borne 
supérieure des messages que l'on peut choisir qui tend vers 2"° et non 
pas le nombre de messages lui-même. Cela parce que nous n'avons pas 
donné un théorème d'existence, mais qu'au contraire nous avons fait 
dépendre notre démonstration de la méthode de choix des messages à 
l'entrée. Cette méthode nous conduit à considérer le problème du co- 
dage binaire (il s'agit évidemment du second problème du codage),qui 
fait l'objet du chapitre suivant. 


CHAPITRE II 


LE PROBLÈME DU CODAGE BINAIRE 


L'ESPACE C, ET LE CODE OPTIMAL - 


Soit C, l'ensemble de toutes les suites de longueur n formées de 
deux symboles 0 et 1. C, contient donc 2° éléments différents. Tout élé- 


= 


ment «œC, peut être représenté comme un vecteur à n composantes 
œ Se 0 Reno) on US LE NI 2 2 en. 


A tout élément «a C, on associe un nombre entier positif appelé la nor- 
me de «et définie par : 
Palz Yo; 
i=1 
Sur l'espace C, on définit ensuite une distance 


n 


Cane eee sl 
1=1 
Cette distance a toutes les propriétés d'une métrique. Elle donne 
le nombre de positions où les deux suites x et B diffèrent l'une de l'au- 
tre. Dans le langage de lathéorie des communications, si «a est le mes- 
sagetransmis et B le message reçu, 5 (ax, Bp) est alors le nombre d'er- 
reurs de transmission. 


Si l'on définit maintenant une opération ® (‘'addition') surC, par 
la relation : 


af = (x, ®B,;, a, DP,, +. » x ,2B,) 


où, pour les nombres «a, et B,, le signe & représente l'addition modulo 
2PRONIVOITIQUEL: 


(i) l'opération & est associative et commutative, 


(ii) SLamiC Reth=C;,, alors 
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«epeC,, 


(iii) il existe un élément neutre ou zéro 


tel que aæD=PDaæa=a, 


(iv) tout élément «a EC, est son propre inverse, c'est-à-dire, 


a pa = D 
pour touta=c,. 


Ainsi, par rapport à l'opération ®, C, est un groupe abélien fini 
d'ordre 2" et de type (1, 1, ... , 1). On a évidemment : 


5(a,B)=loæp | 


On appelle code à distance d tout sous-ensemble de C, tel que si 
a, B(a#{P) appartiennent à ce sous-ensemble on ait : 


5(a,B)=|loaep | > d. 


L'importance de tels sous-ensembles pour la théorie des communica- 
tions est évidente. Si les messages transmis font partie d'un code à dis- 
tance d = 2k+1, on peut alors rectifier jusqu'à k erreurs de transmis- 
sion. Il suffit d'entourer chaque point du code par une ‘'sphère'' de 
rayon k. Si le nombre d'erreurs de transmission ne dépasse pas k, le 
message reçu se trouvera dans la sphère qui entoure le message trans- 
mis et l'identification de celui-ci se fera sans erreur. 


Un code 9 à distance d est appelé un code optimal si pour tout 
élément : 


a=C,, «9 
il existe au moins un élément « = y, tel que 
] x a l<a. 
C'est-à-dire qu'une fois trouvé un code optimal, il est impossible d'y 
ajouter de nouveaux points sans détruire la propriété de distance mi- 
nima. Nous désignerons les codes optimaux de C, à distance d par 


M(n, d). 


Etant donnés net d, il existe plusieurs codes optimaux et il n'est 
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pas vrai que deux codes optimaux ont le même nombre d'éléments. Par 
exemple, pour n = 6 et d = 3 nous avons les trois codes optimaux sui- 
vants ayant respectivement 4, 6 et 8 éléments. 


1) 00 00 00 2) 00 00 00 3) 00 00 00 
01 0101 010101 010101 
10 10 10 10 01 10 10 01 10 
It dx 11 10 00 1500714 

00 10 11 00 10 11 
11143 01 11 10 
10 1101 
11 10 00 


Nous désignerons par [ Mn, d) | le nombre d'éléments contenus dans M, 
et nous dirons que M, est plus grand que M, si : 


(M, (n, d)] > [M,(n, d)]. 


Le problème principal du codage binaire est la recherche du code 
optimal le plus grand. On ne connait jusqu'à présent aucune méthode gé- 
nérale pour construire de tels codes, ni aucune expression générale 
pour la valeur de [ Min, d)]. Laemmel (1952) a donné une table four- 
nissant, pourn=1,2,3,...,17et d=1, 2, ..., 13, le nombre d'élé- 
ments du code optimal le plus grand connu jusqu'à présent. 


Hamming (1950), qui pour la première fois avait posé de cette 
façon le problème du codage binaire, n'a considéré que les codes qu'il 
appelait systématiques. Un code systématique est un code où parmi les 
n positions on en choisit un certain nombre m appelés positions d'infor- 
mation, les n-m positions qui restent étant les positions de contrôle 
ou de vérification, Les symboles dans les positions d'information sont 
choisis arbitrairement tandis que ceux qui figurent dans les positions 
de contrôle sont des fonctions linéaires déterminées des premiers. Plus 
tard Slepian (1956) dans son étude sur les codes qui sont des sous- 
groupes de C,, a démontré que tout code systématique est un sous-groupe 
et qu'inversement tout code sous-groupe peut être considéré comme un 
code systématique. Les codes optimaux qui ne seraient pas des sous- 
groupes étaient connus de Hamming. Il les appelait les codes non-sys- 
tématiques - etilavait conjecturé que le code optimal le plus grand est 
toujours un code systématique, c'est-à-dire un sous-groupe. Ceci pour- 
tant n'est pas vrai car pour n = 9, d = 5, le plus grand code contient 6 
points et n'est donc pas un sous-groupe. 


D'autre part Reed (1953) se servant des méthodes utilisées par 
Muller (1953) pour la recherche des fonctions booléennes a donné une 
méthode pour construire des codes à distance donnée. Sa méthode ne 


s'applique qu'au cas où : 


104 Devi Datt JOSHI 


m et r étant des nombres entiers positifs. Les codes ainsi construits 


sont aussi des sous-groupes, mais on ne sait pas s'ils sont toujours 
optimaux. 


Nous allons d'abord étudier quelques propriétés générales des 
codes optimaux. Le théorème suivant est dû à Hamming (1950). 


THEOREME 1 - 


Pour tout code optimal M(n, 2k)ilexisteuncode optimalM(n-1,2k-1) 
telique-: 


[M{n, 2k)] = [M(n-1;,2k-1)] 
Hamming a aussi donné la borne supérieure 
ee in "0 + 
QG) +) +... + () 


et Gilbert (1952) a trouvé la borne inférieure 


[M(n, 2k)]< 


(ot) Eee) 


(Pour d'autres relations du même genre voir Laemmel (1952)). 


M{(n,2k+1) > 


Soit maintenant + un code (non nécessairement optimal) à dis- 
tance d. Alors, pour toutaÆC,, l'ensemble des points : 


ap: f=y 
est aussi un code à distance d. 
Car: | (ae Bi)æ(sep;) | = | 8,68, | > 4. 
Nous avons en fait le théorème suivant. 


THEOREME 2 - 


Si est un code optimal à distance d, alors pour tout a C,  l'en- 
semble { « ® ? }est, lui aussi, un code optimal d et inversement. 


Soient 
B, > B; » LPS RE » Br 
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les éléments du code ?. Si est un code optimal et que l'ensemble 
{ « ®& p } c'est-à-dire, l'ensemble : 


(RAI Mare Pet oo pe) 


ne l'est pas, nous pouvons trouver un élément y& C, tel que : 
14 # x @ P; 


| y ®(«®p.) Led 
De là on voit que l'élément «® y n'appartient pas à ? et que sa dis- 
tance de tout élément de + est supérieure ou égale à d. C'est-à-dire 
que ? n'est pas non plus un code optimal. L'inverse se démontre de 
même façon. 


Considérons maintenant un code optimal M{n, d) et désignons par 


dd CS, à. 


ses éléments. Ainsi on a [ M(n, d) ]=m. 


Si l'on désigne par A; l'ensemble des points dont la distance du point 
a; est inférieure à d, et par M l'ensemble complémentaire de M par rap- 
port à l'espace C,, on a : 


ACM et Ü A;=M 
i=1 


La première propriété est évidente. Pour la seconde, si elle n'était 
pas vraie, il existerait un élément dans M dont la distance à tout point 
de M serait supérieure ou égale à d, ce qui est impossible d'après 
l'optimalité du code M. Si l'on désigne, pour tout sous-ensemble E de 
C,, l'ordre (c'est-à-dire le nombre d'éléments) du plus grand code op- 
timal à distance d contenu dans E par [E ], on a le théorème suivant. 


THEOREME 3 - 


Pour qu'un code optimal M{n, d) soit le code optimal le plus grand 
il faut, et il suffit, que l'on aït : 


MSA Ta <EMTSME ) 


a; EM 


pour tout sous-ensemble M*C M. 


Le théorème, dont la démonstration est évidente, doit être con- 
sidéré plutôt comme une définition du code optimal le plus grand, la- 
quelle définition pourrait servir comme point de départ pour trouver 
d'autres résultats de plus grande utilité. 
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Les codes qui sont des sous-groupes. 


Les codes optimaux qui sont aussi des sous-groupes de C, jouent 
un rôle très important. En effet la plupart des codes étudiés jusqu'à 
présent étaient effectivement des sous-groupes. L'importance et l'uti- 
lité de tels codes sont montrés par les considérations suivantes. Nous 
avons tout d'abord deux lemmes. 

Lemme 1 : 
Soit +? un sous-groupe de C, et soit : 
d= inf |a| 
& € œ@ | 
a É # | 
Alors 9 est un code à distance d. Car, six, « sont deux éléments dif- 
férents de, ona «;@«,eæ9 
Par conséquent : 


| a ®a |> d. 


Lemme 2 : 


Soit 9 un sous-groupe de C, à distance d, et soit « un élément de 
C tel que «y et que | «x & B | > d, pour tout élément B=? . 


Alors l'ensemble +, = {ax æ& 9} Us est, lui aussi, un sous-groupe 
à distance d. 


Soient : 
®, A CRC TECH) Pm 


les éléments de. Alors les éléments de +, sont : 


Obs n (E 
LA NIDiP Te ORPI, 


Ces éléments sont tous différents et on voit immédiatement que la som- 
me de deux éléments de 9, appartient à +, et que la distance entre deux 
éléments différents quelconques de +,est supérieure ou égale à d. Le 
lemme est donc démontré. De plus nous avons : 


(?9,]=2 fo] 


Nous désignerons, pourtout sous-groupe y de C,, le groupe quo- 
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tient par C, | . Danstout complexe +, du groupe quotient on peut choi- 
sir un élément représentatif «; tel que tout élément de, peut être repré- 
senté comme a; 86 où B est l'un des éléments de ?. Tout complexe du 
groupe quotient contient le même nombre d'éléments que le sous-groupe. 


THEOREME 4 - 


Le plus grand sous-groupe de C, dont tous les éléments, sauf 
l'élément neutre, sont de norme supérieure ou égale à d est un code 
optimal à distance d. 


Soit G le sous-groupe en question et désignons par G,, GAGSr 
les complexes du groupe quotient C, | G, oùa,B,y,... désignent les 
éléments représentatifs de ces complexes. G est un sous-groupe à dis- 
tance d (cf. lemme 1). Supposons que G ne soit pas optimal. Il existe 
alors un élément de C, n'appartenant pas à G, soit l'élément ®, tel que 


| « @ 8, | >d 
pour tout élément ge G. 


On voit alors que (cf. lemme 2) l'ensemble G, U G est, lui aussi, 
un sous-groupe dont tout élément sauf l'élément neutre est de norme 
supérieure ou égale à d. Maïs ceci est contraire à l'hypothèse que G 
est le plus grand sous-groupe de ce genre. Le théorème est ainsi dé- 
montré. 


Ilexiste, à part G, d'autres sous-groupes ayant la propriété op- 
timale. Nous en avons déjà vu un exemple pour le cas où n = 6, d = 3. 
Le théorème suivant donne une condition nécessaire et suffisante pour 
qu'un sous-groupe à distance d soit aussi optimal. 


THEOREME 5 - 
Une condition nécessaire et suffisante pour qu'un sous-groupe ? à 


distance d soit un code optimal est qu'il existe au moins un élément de 
norme inférieure à d dans tout complexe du groupe quotient C, | + . 


Soient : 
GED EU ess Un 


les éléments de p et soient p,,P:, ... ; ®- 


les complexes du groupe quotient C,|9 . Désignons par B; l'élément re- 
présentatif de,. Tout élément de », est de la forme : 
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Sile sous-groupe + estuncode optimal, il existe, par définition, 
pour tout élément B., au moins un élément ae, tel que : 


| p;o «; RE d 
et la condition est nécessaire. 


Si l'on suppose, au contraire, que tout complexe contient au moins 
un élément de norme inférieure à d, on voit que pour tout élément de 
C, n'appartenant pas à 9 (c'est-à-dire appartenant à l'un des comple- 
xes +.) correspond au moins un élément de tel que la norme de la 
somme de ces deux éléments est inférieure à d. Ce qui démontre que 
est un code optimal et que la condition est suffisante. 


À partir de ces considérations on peut maintenant donner une mé- 
thode simple pour construire des codes optimaux qui, de plus, aboutit 
toujours à des sous-groupes. Soit dla distance. Prenons l'élément neu- 
tre O choisissons un élément quelconque «EC, tel que {| « | > d. 


Alors l'ensemble { O, « } est un sous-groupe à distance d. S'il 
n'est pas optimal il existe au moins un élément, soit P, tel que : 


18] zd, | «æepl>d. 

Alors l'ensemble { O,x,B,«®pB} est encore un sous-groupe à 
distance d. S'il n'est pas optimal, il existe un élément, soit y, dont la 
distance à chacun de ces quatre points est supérieure ou égale à d. 
Alors l'ensemble des points : 


D; a, BP,app,y,;,awy,BPoy,;awpoey 


constitue encore un sous-groupe à distance d. Ou bien il est optimal, 
ou biens'ilne l'est pas, on peut continuer le raisonnement ci-dessus et 
obtenir un autre sous-groupe (de 16 éléments) à distance d et ainsi de 
suite. 


Soit + un sous-groupe optimal à distance det soient ®,, Paire 
les complexes du groupe quotient C, | .a,B, y, ... sont ici les élé- 
ments représentatifs de ®, 8%, ... . Nous désignerons par Pogle 


complexe résultant de l'addition de complexes ?,et Pg 


Soit m, le nombre d'éléments de +, de norme inférieure à d. On 
a alors les propriétés suivantes. 


(i) m,>0,m,>0, 


mt 20) G)e (ES) 
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(ii) A tout élément « de #, correspond exactement m, éléments de 
æ dont la distance à « est inférieure à d. 


(iii) A tout élément «Ep, correspond exactement m,æméléments de 
Pe dont la distance à « est inférieure à d. 


(iv) Sil'on désigne par Pela) l'ensemble des points de V8 dont la dis- 
tance à «€, est inférieure à d, alors : 


le 7 (x) À}, 


aep. 
Ces propriétés découlent des propriétés bien connues du groupe 
quotient et du fait que, et donc Ponts ee aussi, sont des codes op- 
timaux (cf.théorème 2), En les utilisant on a le théorème suivant. 


THEOREME 5!4) - 


Soit un sous-groupe optimal à distance det soient Patsrt, trois 
complexes du groupe quotient C, |? tels que: 


s'il existe des éléments : 
LE ANTENNES? 
tels que : 
Iaep > d, aësyl<d,  1B8rl<a 
alors il existe un code à distance d d'ordre supérieur à [®]. 


A tout élément de +, et de #4 correspondun seulélément de ®, dont 
la distance à ces éléments est inférieure à d. Les conditions du théorème 
montrent qu'aux deux éléments «et B correspond le même élément yE=9.. 
Ainsi dans l'ensemble optimal +, on peut remplacer l'élément y par les 
deux éléments a et B. L'ensemble ainsi obtenu est un ensemble à dis- 
tance d et d'ordre supérieurà [9,1] = [? ]. Le théorème est donc dé- 
montré. 


Exemple : Prenons le cas n = 6, d = 3. Le sous-groupe : 


00 00 00 
ONSOAMON 
10 10 10 
ii Poil 
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estuncode optimal. Le groupe quotient contient 15 complexes dont les 
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éléments représentatifs sont : 


1) 00 00 01 6) 10 00 00 11) 21080110 
2) 00 00 10 7) 00 O1 11 12) 01 O1 10 
3) 00 01 00 8) 00 10 11 18) 0100 
4) 00 10 00 9) 09 11 01 14) 01 11 00 
5) 01 00 00 10) 00 11 10 15) 10 11 00 
Si l'on prend : 
Aa à Me nec re mpià 
on à : 
He, Di "0 
ms@ dt 0e 1 


On peut également choisir trois éléments ©, 6, y 


EP 1018101800 
BE : 10 00 00 
A? :100NO01M00 
et on a : 
Isgp'|s"4.,  Faey 122 FPerISZ, 


et le code optimal n'est pas le plus grand. En effet nous avons déjà vu 
qu'il existe un sous-groupe à distance 3 ayant 8 éléments. 


Les deux théorèmes suivants donnent des conditions suffisantes 
pour qu'un sous-groupe optimal soit aussi le plus grand code optimal. 


THEOREME 6 - 
Soit 9 un sous-groupe optimal à distance d et soient : 
L'ERIS 2 tT  D 


les complexes du groupe quotient. S'il existe des éléments représentifs 
CNE 


tels que : 
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Ia; < d 
A 2, ON EIES à 
j 


laisal < à 


alors, $ est le code optimal le plus grand. Désignons par 


Ep? Bi» 8 » .. Bs 


» 


les éléments de ?. Tout élément d'un complexe Pi s'écrit : 


a, ® &,, j Ë 0, 1 …. S. 


» 


Soit M(n, d) un code optimal quelconque et soient : 


US OPEN TR 1 
ses éléments. Nous allons maintenant établir une correspondance biu- 


nivoque entre les éléments de M et ceux de +. 


Supposons qu'un élément m, = M appartient à +. , soit m, = «; ® gx 
Dans ce cas on associe l'élément g, à mx Si l'élément m € M appar- 
tient à 9, soit m, = g, on lui associe l'élément gx. 


On voit immédiatement que c'est une correspondance biunivoque 
où à chaque élément de M correspond un et un seul élément de + et à 
deux éléments différents de M correspondent deux éléments différents 
de ». Car si deux éléments de M appartiennent au même complexe y; 
deux éléments différents de 9 correspondent à eux. Si par contre aeux 
éléments m,et m, de M appartiennent à deux complexes différents , 
soient à p,et,, on a: 
m, = ue ® 8% 


a 
M, = OL); 


et on doit avoir g;  g;, sinon on aurait |m,æ@m, | = la, © & | < d. 
Le même raisonnement s'applique au cas où un élément de M appar- 
tient à un complexe +, et l'autre au sous-groupe ?. Ce qui démontre le 
théorème. 


THEOREME 7 - 


Soit 9 un sous-groupe optimal à distance d d'ordre 2” (u entier 
Doshifietsoiente (Len 2.2. ,1r; T7 2""#- 1) les complexes du 
groupe quotient. Si u < (n/2), et s'il existe des éléments représentatifs 
= ?, tels que : 
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Par So, l< dR EPTRENMERE 14#59 
alors, 9 est le code optimal le plus grand. 


Soit M(n, d)un code optimal quelconque. Si M ne contient que des 
éléments appartenant aux complexes ?,, c'est-à-dire si son intersec- 
tion (au sens de la théorie des ensembles) avec + est vide, on voit que 
d'après les conditions ci-dessus énoncées la correspondance établie 
dans le théorème précédent associe à chaque élément de M un et un seul 
élément de + et qu'à deux éléments différents de M correspondent deux 
éléments différents dep. Dans ce cas, donc, l'ordre de M est au plus 
égal à l'ordre de y. 


Soit maintenant M'(n, d)un code optimal ayant des éléments com- 
muns avec le sous-groupe. Comme nu < (n/2), le nombre r de com- 
plexes +, est supérieur à 2, Il existe donc au moins un complexe, soit 
?,, dont l'intersection avec M'est vide. Prenons un élément quelconque 
a,& +, et considérons l'ensemble : 


Mis oleMIne 


D'après le théorème 2, M'' est aussi un code optimal du même ordre 
que M'. Mais M''n'aaucunélément en commun avec®. Par conséquent 
l'ordre de M", et donc celui de M' aussi, est au plus égal à l'ordre de 9. 
Ceci achève la démonstration du théorème, 


Nous allons maïintenant étudier deux cas particuliers des codes 
optimaux qui sont des sous-groupes. 


I- n = 2" - 1, d = 3 (m entier positif) - 


I1 y a (2" - 1) éléments de norme 1 et d'après un théorème de 
Zaremba (1952, théorème 1) il existe un sous-groupe + d'ordre 2°" tel 
que les éléments de norme 1 peuvent être pris comme éléments repré- 
sentatifs des (2" - 1) complexes, du groupe quotient C, |p. On voit 
facilement que tout élément de + sauf l'élément neutre est de norme 
supérieure ou égale à 3. Ainsi + est un code à distance 3 (cf. lemme 1), 
D'après le théorème 5, + est aussi optimal. Il est intéressant de noter 
que dans ce cas le code optimal + atteint la borne supérieure de Ham- 
ming car : 


= 9n-Mm 2 
LPS Ar: 
II LÀ 2r 
27 3 Ce raSs(renterposti)e 


Un autre théorème de Zaremba(1952, prop. 2) montre qu'il existe 
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un sous-groupe + d'ordre 2°? tel que tout élément de 9, à l'exception de 
l'élément neutre, est de norme supérieure ou égale à 3 et que tout com- 
plexe du groupe quotient contient au moins un élément de norme infé- 
rieure à 3. Ce qui démontre que le sous-groupe + ainsi trouvé est un 
code optimal à distance 3. 


Les codes qui ne sont pas des sous-groupes. 


Considérons maintenant les codes optimaux qui ne sont pas des 
sous-groupes. Notons tout d'abord que tout code sous-groupe engendre 
automatiquement des codes qui ne sont pas des sous-groupes, à savoir 
les complexes appartenant au groupe quotient. On sait, d'après Le théo- 
rème 2, que si le sous-groupe en question est un code optimal, tout 
complexe appartenant au groupe quotient est, lui aussi, un code optimal 
avec la même distance que le sous-groupe. D'ailleurs tout complexe 
appartenant au groupe quotient a le même nombre d'éléments que le 
sous-groupe. Aussice ne sont pas ces complexes qui nous intéressent, 
car la question la plus importañte est de savoir sous quelles conditions 
le code optimal le plus grand n'est pas un sous-groupe. Qu'il existe de 
tels codes est bien connu et nous en avons déjà parlé. Les deux théo- 
rèmes suivants donnent des conditions nécessaires pour qu'un code op- 
timal qui n'est pas un sous-groupe soit le plus grand. 


Nous supposerons que le code optimal en question contient tou- 
jours l'élément neutre @. Ceci n'est pas une condition restrictive car 
si l'élément neutre ne fait pas partie du code on peut toujours transfor- 
mercelui-ci de telle sorte qu'on obtienne un autre code du même ordre 
et contenant l'élément neutre. Il suffit de prendre un élément quelconque 
a du code M et de considérer, au lieu de M, le code transformé : 


Mis {oæM }…. 
(cf. théorème 2). 
THEOREME 8 - 
Soit M(n, d)un code optimal d'ordre m contenant l'élément neutre 
Q. Si M n'est pas un sous-groupe, soit r l'ordre du plus grand sous- 
groupe contenu dans M. Alors une condition nécessaire pour que M soit 
le plus grand code optimal est que : 


r <(m/2). 


Si o désigne le plus grand sous-groupe contenu dans M, et a un 
élément quelconque de M - + (il existe au moins un tel élément), l'en- 


semble : 
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p, = (aee)U» 


est aussi un code à distance d(cf. lemme2). Comme [9,] =2 [9]=2r 
la nécessité de la condition est évidente. 


Avant de passer au théorème suivant nous introduisons la défini- 
tion d'un ensemble fermé sous l'addition des éléments différents. Nous 


dirons qu'un ensemble E CC, est fermé sous l'addition des éléments 
différents si pour tout couple d'éléments : 


GSIPRSREr, a FROIET 

leur somme « @f appartient, elle aussi, à l'ensemble E. Remarquons 
qu'un ensemble fermé sous l'addition des éléments différents devient 
un sous-groupe si l'on y ajoute l'élément neutre ® et qu'inversement si 
#9 estun sous-groupe l'ensemble { 9 - OÔ } est un ensemble fermé sous 
l'addition des éléments différents. 
THEOREME 9 - 

Soit M(n, d) un code optimal d'ordre m contenant l'élément neutre. 
Si M n'est pas un sous-groupe, soit r l'ordre du plus grand sous-groupe 
e contenu dans M, et s l'ordre du plus grand ensemble E fermé sous 
l'addition des éléments différents, contenu dans M -. Alors, une con- 
dition nécessaire pour que M soit le plus grand code optimal est que : 

CU(S SA D)Etrne 

Désignons par g,=@, g;, g,, ... , g,._.les éléments de, et parh;;0h;,s5h 


les éléments de E. E et étant des sous-ensembles de M, on a évi- 
demment : 


| 8; & h;l>d. 
Considérons maintenant l'ensemble : 
gU{heej}U{h® p}... U{h, e + } 


Cet ensemble est d'ordre r(s + 1). Tout couple d'éléments de cet ensem- 
ble appartient à l'une des trois catégories suivantes : 


(D) (8,8) 
(ii) (g;, h; ® 8,) 


(iii) (he g;, h, eg) 
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et nous avons : 


| 88; | >d 
| g;®(h,68g),) lb =/À h;œg,| >d 
lie g;e (he g)) | = |(h:eh)e (8; @ 8) | = [he g | >d. 


On voit que cet ensemble d'ordre r(s + 1) satisfait à la condition de dis- 
tance minima. Ce qui démontre que la condition est nécessaire. 


Le nombre d'éléments d'un code optimal - 


Le problème général de trouver le nombre d'éléments contenus 
dans un code optimal le plus grand n'a pas encore trouvé de solution. 
Dans l'absence d'une solution générale la recherche des bornes supé- 
rieures devient important surtout parce que la borne supérieure de 
Hamming (1950) donne des valeurs trop grandes. Nous donnons ci-des- 
sous deux résultats qui sont plus simples et dont le second donne les 
valeurs beaucoup plus petites que celles de Hamming. 


THEOREME 10 - 
CM (n;d)es 2e 


Nous suppose rons toujours que le code M{n, d) contient l'élément 
neutre @. Soient : 


di 
x. #0, As Ans es A e m'=.2 1 


les éléments du sous-groupe + de C, obtenu en ajoutant n-d+1 zéros à 
tous les éléments de C,.,. Les ensembles : 


{ M @c;i } LRO MIRE EC 


sont disjoints et on a donc : 


n 


D NE Pie LU PT 


ce quinous donne le résultat énoncé. Signalons que Komamiya (1954) a 
obtenu le même résultat en utilisant un raisonnement plus compliqué. 


THEOREME 11 - 


Si la distance d est un nombre impair et si 2d + 1>n, on a : 


242 


RUN Me pres 
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Désignons les éléments de M{n, d) par 
CC A 0 op ME à m= [Mi{n,d)] 


et formons la matrice à m lignes et n colonnes dont la j-ième ligne est 
l'élément a. Si l'on désigne par k;(i= 1, 2, ... , n) la somme de la 
i-ième colonne on obtient : 
A ? 
n. variance (k;) = mA -— - Soi (Ro) 
aj#ay 
où on a : 


AD k= D l «, | 
Î j 
Ce résultat est valable non seulement pour les codes optimaux mais 
pour tout sous-ensemble de C, (cf. Schutzenberger (1953)). 


Cela nous donne : 


2 
ae pére. 
< J n 
j#k 
A? 
La valeur de A est comprise entre 0 et mn et la quantitémA = atteint 


: mn 
son maximum pour À = RTS On a donc : 


m?n 
> 0 (a; a) < 4 
j#k 


Tous les 6 (a;,a,) étant supérieurs ou égaux à d, on obtient une 
première inégalité valable pour toute la valeur de d : 


m (m - 1) m?n 
[ 5 ] d< 2 
c'est-à-dire : 
MI cs 
2d-n 


à condition que l'on ait 2d > n. 


Supposons que d soit un nombre impair et que des m éléments de 
M(n, d) r soient de norme impaire et s de norme paire (r +s= n). La 
distance entre deux éléments de norme paire ainsi qu'entre deux élé- 
ments de norme impaire est un nombre pair tandis que la distance 
entre un élément de norme paire et un élément de norme impaire est 
un nombre impair. 
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Comme d estunnombre impair si la distanceentre deux éléments 
est un nombre pair elle est au moins égale à d + 1. Nous avons donc : 


a 2 PS DE 


2 4 
ce qui donne finalement : 


.2d+2 
DEEE 


à condition que l'on ait 2d + 1 > n. 


Entitre de comparaison nous donnons ci-dessous (Table I) les 
valeurs de la borne supérieure de Hamming et celle du théorème 11. La 
première valeur est celle fournie par le résultat de Hamming et la se- 
conde celle du théorème 11. Nous avons ajouté entre parenthèses le 
nombre d'éléments du code optimal le plus grand effectivement cons- 
truit (d'après Laemmel (1952)). Il est intéressant de remarquer que 
dans plusieurs cas (eg. n = 9, d = 5) notre résultat permet de démon- 
trer que le code construit est aussi le plus grand possible. 
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CHAPITRE III 


LE THÉORÈME FONDAMENTAL : CAS GÉNÉRAL 


DEFINITIONS ET THEOREMES PRELIMINAIRES : 


Soit X un ensemble d'éléments x de nature quelconque. Nous ap- 
pellerons x un point de l'espace X. Soit & une famille de sous-ensem- 
bles de X telle que : 


()EE ZX, FE Z entraîne EUFE de ENFEZ 


(ii) EE © entraîne EE © ; où E est l'ensemble complémentaire de 
E par rapport à X ; 


æ est alors un corps. Si + est tel que l'union de toute suite dé- 
nombrable {E;} d'ensembles de Æ appartient à ©, alors & est un corps 
borélien(ou os - corps). Un espace X sur lequel est défini un corps bo- 
rélien © de sous-ensembles de X est appelé un espace mesurable, et 
nous le désignerons par (X,æ). On appelle ensemble mesurable tout 
sous-ensemble de X appartenant à &. 


Une fonction d'ensemble u définie sur © est une mesure si elle 
est non-négative et complètement additive ; à est une mesure finie si 
u(X) < + œ ; h est une mesure o - finie s'il existe une suite dénombra- 
ble ou finie d'ensembles mesurables E; telle que U E;= X, et que 


u(E;) < + © pour tout i. La mesure nest une mesure de probabilité si 
u(X) = 1. 


Soient u, v deux mesures définies sur un même espace mesura- 
ble (X,Ææ). Si pour tout ensemble E€ Æ pour lequel u(E) = 0, on a 
v(E) = 0, on dit que la mesure v est absolument continue par rapport à 
u, et on écrit : 


VEN 


Si l'on a à la fois v<<u et u<<v, alors on dit que et v sont équiva- 
lentes, et on écrit : 


T 
it 
< 
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Sipouruet v, ilexiste deux ensembles disjoints À et Btels que À UB=x 
que pourtout ensemble E€Æ Æ on ait (A N E)E 2 et(B N He Tv; etique: 


u(AME)=v(BÂE)-=0, 


alors, on dit que H et v sont singulières l'une par rapport à l'autre, et 
on écrit : 


HOME 


Une fonction à valeurs réelles f(x) définie sur l'espace mesurable 
(X, & ) est une fonction mesurable (T) si pour tout nombre réel c, l'en- 
semble : 


OX M(R)EC) 
appartient à&. On a le théorème suivant : 
THEOREME DE RADON-NIKODYM : 

Si u et v sont deux mesures o- finies sur l'espace mesurable 
(X,æZ) telles que v <<u, alors, il existe une fonction f(x) mesurable 
(TZ), telle que : 

O0 <f(x) <+ © 
et que tout ensemble EE 
v (E) = Ja f(x) du (x). 
E 


La fonction f(x) est unique dans ce sens que s'il existe une autre 
fonction g(x) ayant les mêmes propriétés que f(x), on a : 


u {x : f(x) # g(x) } = 0. 
On écrira : 
dv(x) = f(x) du (x) et aussi : f(x) = dv / du. 


Soient (X,æ)et (Y, 4) deux espaces mesurables. On appelle es- 
pace produit de X et de Y l'ensemble de couples ordonnés (x, y) où 
xEX et yE Y. Nous le noterons par X ® Y. De même, pour tout en- 
semble EE et FE‘y, nous désignerons par E @F l'ensemble, appelé 
rectangle mesurable, des points (x, y) tels quex&E, yEF. Le plus 
petit corps borélien sur X @ Y qui contient tous les rectangles mesura- 
bles sera désigné par? 8 V. On définit de la même façon l'espace pro- 
duit d'un nombre fini quelconque d'espaces mesurables. 
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On sait que la famille & de sous-ensembles de X @ Y qui, à part 
les rectangles mesurables, contient toute réunion d'un nombre fini de 
ceux-ci est un corps. Le corps borélien + @ VJ peut aussi être con- 
sidéré comme le plus petit corps borélien qui contient tous les ensem- 
bles du corps &. 


Soit E un sous-ensemble de l'espace produit X ®& Y. On appelle 
section de E par x, écrite E,, l'ensemble des points y tels que : 


(x, M E E. 


De même, la section de E par y, notée E*, est l'ensemble des 
points x tels que : 


(X MEeE, 


On sait que toute section d'un ensemble mesurable est un ensemble 
mesurable. 


On obtient d'une façon analogue les sections d'une fonction f(x, y) 
définie sur l'espace produit X @ Y. On appelle section de f(x, y) parx, 
notée f,(y), la fonction définie sur Y par : 


(7) AK, y). 


La section de f(x, y) par y, notée fx), est la fonction définie sur X par: 
HÉd)S EE sie 


On sait que toute section d'une fonction mesurable est une fonction 
mesurable. 


Si u etv sont deux mesures o- finies respectivement sur (X,© ) 
et(Y, 4), on obtient alors une mesure produite H@ v sur l'espace pro- 
duit (X @ Y,®? ® V}). Pour tout ensemble mesurable Eee VJ la me- 


sure produite est définie par : 


+ 


CuëvHE)= / v(P) dupe | u(E) dv 


X ï: 
A partir de ces définitions on a les lemmes suivants : 


Lemme 1 : 


Soient (X,®) et (Y, VU) deux espaces mesurables. Si f(x) est une 
fonction non-négative et mesurable (4) et g(y) une fonction non-néga- 
tive et mesurable (‘J), la fonction h(x, y) définie sur l'espace produit 
DASNepAT.: 
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h(x, y) = f(x). g(y) 
est une fonction mesurable (T@ 4). 


Lemme 2 : 


Soient u,,v, deux mesures définies sur (X,,®,) et h,, v2 deux 
mesures définies sur (X,, ©,) telles que : 


Vi<< H; 110 2: 


Si M, N sont des mesures produites : 


M=R, Su N=v,@v, ji 
définies sur (X,@X,,4, 8®,), on a : N << M. 
Lemme 3: 
Si dans le lemme 2 on a : dv, = f(x) du,, 


dvs=s(x du 
etidN=hn(x;x)dM”, 
Alors, h(x;,, x,) = f(x). g(x,) 
sauf sur un ensemble de M-mesure nulle. 
DEFINITION DE LA LIGNE DE TRANSMISSION : 


Dans le cas général que nous étudions une ligne de transmission 
est constituée par : 


(i) Unespace mesurable (X, 4), l'espace des ‘lettres'' à l'entrée 
(ii) Unespace mesurable (Y, 4), l'espace des "lettres" à la sortie 


(iii) Une mesure de probabilité u définie sur (X,% ), la probabilité | 
selon laquelle sont choisies les lettres à l'entrée 


(iv) Une famille de mesures de probabilité v, définies sur (Y,‘W) | 
pour tout point xE X. Cet ensemble de probabilités constitue le ‘'bruit''. 


Nous supposerons de plus que pour tout ensemble GE‘, v,(G) 
considérée comme fonction de x est une fonction mesurable (+). Nous 
avons alors le lemme et le théorème suivants. (Cf. Robbins (1948)). 
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Lemme 4 : 


Pourtout ensemble GE V, la fonction d'ensemble v définie par : 


* 


v (G) = | v, (G) d'u(x) 
Ca 
est une mesure de probabilité sur (Y,‘4V). 
THEOREME 2 : 


Pour toute fonction non-négative et mesurable (4) g(y) définie 
sur Y, la fonction de x : 


® (x) = ‘L g(y) dv, (y) 


Y 
est une fonction non-négative et mesurable (4), et : 


1h a) de [ ect faut JL g(y) dv (y) 


x 


Ce théorème s'étend facilement au cas où g(y) est une fonction 
mesurable (9) non-nécessairement non-négative. Dans le cas où le do- 
maine d'intégration est un ensemble mesurable GE 4, on a : 


Jon av (n - faut. [ en av, tn. 
G x 6 
Considérons maintenant l'espace produit (X ® Y,æ ®@{/). Ayant 
défini la mesure v, on peut définir sur cet espace la mesure produite 


u ®v. Mais nous définirons une autre mesure de probabilité À sur cet 
espace produit à partir des mesures net v,. 


Lemme 5 : 


Pour tout ensemble mesurable ES ® , la fonction : 
v, (E) , 
considérée comme fonction de x, est une fonction mesurable (Z). 

Soit & la classe de tout ensemble mesurable E pour lequel le 
lemme est vrai. Soient El?’ et E!?/ deux ensembles mesurables disjoints 
appartenant à «\. 

Si SOA AtE AuUE Cie, ones ep tE EE 


et les ensembles E!'’et E!?’ sont disjoints. On a donc : 


v, (ES VAE De VE") 


x 
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v, (E,) étant la somme de deux fonctions mesurables est, elle aussi, 
une fonction mesurable. Ainsi la réunion de deux ensembles disjoints 
appartenant à & appartient, elle aussi, à(t. Ilest facile de voir que cela 
reste vrai pour la réunion d'un nombre dénombrable d'ensembles deux | 


à deux disjoints. 


Nous démontre rons que & est une classe monotone. C'est-à-dire 
que si nous avons une suite { E‘"’} d'ensembles : | 


mm ENS, à 
appartenant tous à &, la limite de cette suite appartient à. Soit : 
E = Lim EU EE!" 
Ainsi E est un ensemble mesurable et on a : 
ENCENER 
et E, = Lim LME U El"). Considérons la suite {v, CHU Ona: 
J (Eu <v, (ee 1 
Lim v,(E!"/) = v (Lim E!l"/)=v(E,) 


n > n > 


v,(E,) étant la limite d'une suite non-décroissante de fonctions mesura- 
bles est une fonction mesurable, c'est-à-dire que : 
DE À à 


Par conséquent « est une classe monotone, 


La classe & contient tous les rectangles SCAN RERIREE car pour 
tout ensemble F8 G, où FE, GE, onta. 


% (Pro) er (GRACE 
v,(G) est mesurable par définition, x, (x) également puisqu'elle est la ! 
fonction caractéristique d'un ensemble mesurable et, par conséquent, 


v, (F ® G), est aussi une fonction mesurable. 


Finalement, d'après le théorème bien connu (Halmos (1954), 
théorème 6B) 


A DTeA 


ce qui complète la démonstration. 
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Lemme 6 : 


La fonction d'ensemble À définie pour tout ensemble mesurable 
E de l'espace produit par : 


 (E) = ni v, (E,) du (x), 
x 
est une mesure de probabilité sur (X & Y,® 8 4). 


L'intégrale existe pour tout ensemble EE © ® 4 car v, (E,) est 
une fonction non-négative, mesurable et bornée. L'additivité de À est 
une conséquence directe de l'additivité de la fonction v,. Finalement, 


1 (X ® Y) - fu æen, ducs - ir v (Y) du(x)= 1. 


x X 


Si l'ensemble E est un rectangle mesurable, soit E = F@8G, 
Led, GErysmonac 


A(E)=A(FSG)= | v,(G) du (9 


Lemme 7 : 


Pour toute fonction h(x, y) non-négative et mesurable (T 84) la 
fonction : 


2 


f(x) = / h(x, y) av (1) 
SAIT 
est une fonction non-négative et mesurable (©). 


La fonction f(x) est évidemment non-négative. Examinons la ques- 
tion de mesurabilité. Si h(x, y) est la fonction caractéristique x, (x, y) 
d'un ensemble mesurable EE © 8, on a : 


» 


= | x Œndvie [ x Mae (E,) 


ff 
La fonction f(x) est donc mesurable dans ce cas. De même, ilest évi- 
dent que f(x) est mesurable dans le cas où h(x, y) est une fonction non- 
négative simple. 


Si h(x, y) est une fonction mesurable non-négative quelconque, il 
existe une suite { h,(x, y) } de fonctions non-négatives simples qui est 
non-décroissante et qui converge partout à la fonction h(x, y). Posons : 


» 


f(x) = | (x » dv, (n 


Ainsi pourtoute fonctionh (x, y), la fonction correspondante f (x) estme- 
surable, La suite {f,(x) } est une suite non-décroissante de fonctions 


non-négatives mesurables et nous avons : 
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(x) = Lim fx) 

= Lim É M DR oo. 
Y 


h(x, y) du (y) 


Y 


Ainsi la fonction f(x) est aussi une fonction mesurable et le lemme est 
démontré. 


THEOREME 3 : 


La mesure À est telle que pour toute fonction h(x, y) non-néga- 
tive et mesurable (T 81) 


f Ho arte HER du(x) Fa h(x, y) dw(y) 
Jx 8 X y 


Pour tout ensemble mesurable E= %@ nous avons : 


[ &t fe tmnpane f dut f x, mat - 


= J v (E,) du (x) = A (E) = ui x, (&, y) da (x, y) 
x X®Y 

Le théorème est donc valable pour les fonctions caractéristiques 
d'ensembles mesurables, De même il est vrai pour les fonctions non- 
négatives simples. Et finalement, en considérant pour toute fonction 
non-négative mesurable une suite non-décroissante de fonctions non- 
négatives simples qui converge partout à cette fonction, on voit que le 
théorème est toujours valable. 


Siau lieu de l'espace tout entier X & Y on prend comme domaine 
d'intégration un ensemble mesurable EE ®@ 4, on a : 


f'rennén: fac fr nas, 


Les théorèmes et les lemmes que nous avons énoncés ci-dessus 
pour les fonctions mesurables non-négatives, s'étendent facilement aux 
fonctions mesurables. 


Considérons maintenant un lemme qui généralise un lemme de 
Feinstein(1954, lemme 2) et qui nous servira pour la démonstration du 
théorème foncamental. 


Lemme 8 : 


Soient « , 5 deux nombres positifs arbitrairement petits. Soit 
ES Z @ Y un ensemble mesurable de l'espace produit X 8 Y. Si : 
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MCD)EMRESS 
et si F est l'ensemble des points xE X pour lesquels : 


VC) ET 


3 


EUR 


ô 
PE SX 


Soit F l'ensemble complémentaire de F par rapport à X et soit 
E, l'ensemble complémentaire de E, par rapport à Y. On a alors : 


v, (E,) + v, (E,) = 
Pour tout xeF ONas 
v, (E,) < 1 rx 


et donc : _ 
(EE) > tt D'où ‘, v, (E,) du (x) > au (F) . 


F 


Mais : de v (E,) du(x) « 1 v, (E,) du (x) 


F D 


= À (E) (car E! = (E), 


Ce qui donne : 
au(F)<5, c'est-à-dire : u(F)>1-2. 
C.Q.F. D. 


Nous pouvons maintenant définir la capacité de la ligne de trans- 
mission dans le cas général. Pour que cette définition soit utile il faut 
que la mesure À soit absolument continue par rapport à la mesure pro- 
duite u @ v ; et pour cela des conditions supplémentaires sont nécessai- 
res. Ces conditions supplémentaires, on peut les choisir de diverses 
manières et, afin de rendre les choses plus simples, nous supposerons 
que les mesures v, constituent une famille homogène, c'est-à-dire que : 


TD, ANT ESS) Vi 
1 2 2 L 


pourtout couple x,, x, appartenant à X. (Cf. Halmos et Savage, (1949)) 
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THEOREME 4 : 


Si les mesures v, constituent une famille homogène, la mesure 
À est absolument continue par rapport à la mesure produite x ® v. 


Pour tout ensemble GE, on a : 
v(G)= | v,(G) du(x). 
æ X 
Siv(G) est égale à zéro, la fonction v (G) de x étant une fonction non- 
négative est, elle aussi, égale à zéro pour tout point xE= X à l'excep- 
tion d'un ensemble de u-mesure nulle, Comme les mesures v, consti- 


tuent une famille homogène il s'en suit que v, (G) = 0 pour tout x. 


Soit maintenant E un ensemble mesurable de l'espace produit 
(X ® Y,Æ @ V) tel que l'on ait : 


(u @v)(E) = j v(B ))du(X)= "0; 
On a alors, 
v(E,) = 0 


pour tout xe= X sauf pour un ensemble de H-mesure nulle. D'après ce 
que nous venons de dire plus haut il suit que : 


v (F0) =20 
sauf pour un ensemble de “-mesure nulle, et donc que, 


À (E) = j v (Ho) du(r)=00; 
X 
ce qui démontre le théorème. 


Soit f(x, y) la dérivée de Radon-Nikodym de À par rapport à H@v. 
f(x, y) est une fonction non-négative, mesurable et bornée. On sait que 
la dérivée de Radon-Nikodym n'est définie qu'à un ensemble de mesure 
nulle près. Nous supposerons que parmi toutes les déterminations pos- 
sibles de la dérivée, une détermination a été choisie et que f(x, y) la 
désigne. 


Pour toute mesure de probabilité u définie sur l'espace (X,  ), 
on définit alors le débit de transmission R(u) par : 


R(u) = si Log f(x, y) dA(x, y) 
X @ Y 
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Cette définition n'est valable que pour le cas où cette intégrale existe. 


Soit maintenant 9h la famille des mesures de probabilité u pour 
lesquelles cette intégrale existe. Les mesures de cette famille sont des 
mesures possibles à l'entrée et donc cette famille fait partie de la dé- 
finition-même de la ligne. Relativement à cette famille9N, on définit 


alors la capacité C par : 


C = Sup R({u) 
uE=Mm 


Avant d'établir certaines propriétés de R analogues à celles étudiées 
par Shannon, nous allons donner quelques résultats qui seront utilisés 
ultérieurement. 


Considérons la section de f(x, y) par un point y € Y quelconque. 
La section f’(x) est une fonction mesurable (4), non-négative et bornée. 
Donc l'intégrale : 


» 


| f(x) du (x) 


« 


existe pour tout ensemble mesurable FE. 
Lemme 9 : 


La fonction d'ensemble u” définie sur (X,Æ) pour tout point y= Y 
Dares: 
u'(F)= / fx , FEx 
PRÉ 
est une fonction mesurable (y) pour tout ensemble FE Z, et une me- 
sure de probabilité sur (X,Æ ) pour presque tout y. 


Que u'(F) soit une fonction mesurable (4) pour tout ensemble 
FE Z, cela est une conséquence du théorème de Fuübini. Pour démon- 
trer la seconde partie du lemme nous avons, pour tout ensemble GEYy 


[ tmnacmenxne f avt ff Fo dt 
X@ G X 


FRS 


= [4x dv (y) 


CE re 
Mais : 
ï f(x, y) d(u Sv)(x, y) = A (X ® G) = 1 v,(G) du (x) = v(G) 
Xx@ G X 


Ainsi, pour tout ensemble GE y, on a: 
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| u/(X) dv (y) = v (G) 
Par conséquent : 
uY (X) — il ; 


pourtout point yEÆY, à l'exception d'un ensemble de v-mesure nulle ; 
ce qui démontre le lemme. 


Sil'on considère la section f,(y), on obtient le lemme suivant qui 
se démontre de la même façon. 
Lemme 10 : 

La fonction d'ensemble n, définie sur(Y,V) pour tout point xe=X 


par : 


n, (G) = je £ (y) dv (y), GEYy 
G 


est une fonction mesurable (©) pour tout ensemble GE, et une me- 
sure de probabilité sur (Y, 4) pour presque tout x. 


PROPRIETES DE LA CAPACITE.:C.: 


Nous allons démontrer deux propriétés du débit de transmission 
R(u) et on pourra en déduite les propriétés de C. 


LÉ R(MaSDE 
Cette propriété découle du théorème suivant sur les fonction- 
nelles convexes (Hardy, Littlewood, Polya (1934), p. 151). 


THEOREME 5 : 


Soit H une mesure de probabilité définie sur un espace mesurable 
(X, T ). Sif(x) est une fonction mesurable (4) telle que : 


(i) aç<f(x) <B, « et B peuvent être ou non bornés. 


(ii )f(x) est presque partout différent de a et de B, et sio(t) est une 
fonction définie sur l'intervalle «x <t < B, telle que d''(t) est positive et 
finie pour «a <t<p.-alors, “on a: 


e! ra) du 60 | es ONE) 


X x 
à condition que l'intégrale : 


1e f(x) du (x) 


e X 


4 
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existe. On a l'égalité si, et seulement si, f(x) est partout égale à une 
constante. 


Si l'on prendun ensemble mesurable EE comme domaine d'in- 
tégration au lieu de l'espace X tout entier, on a : 


J f(x) du (x) [ © (£) du (x) 
u(E) is u (ÆŒ) 


e 
IA 


Nous avons : 


Ê SA 


Ru) = J,, Logfx, y) di (x, y) 
= ff » Log f(x, y) d'(u evhx, y), 
: x @Y 
et f(x, y) du 8 vAx, y) =A(KeY)=1. 


X @Y 
Si dans le théorème ci-dessus, on prend : 


o (t) =t Logt 
On obtient : 
RQu)= fo(n due v) 
=D (L)= 0 


De plus, R(u) = 0 si, et seulement si, f(x, y) = 1 partout, c'est-à-dire 
si les deux mesures À et u @ v sont identiques. 


2/ - La fonction R est additive pour les espaces produits : 


Considérons l'espace à 2n dimensions dont tous point £ estune 
suite de n couples : 


(Be Va) (X>, Y) CI CIS DECO (X: Yn) 
où xeX, y Y. On peut le considérer comme l'espace produit à n 
dimensions de l'espace X ®@ Y avec lui-même, c'est-à-dire que l'on peut 
le représenter comme : 
If (KT ECC SV) SX, 67.) (XP E Y,) 
où Sax Pre Miele slN 2. ion 


Le corps borélien correspondant s'écrit : 


TT (, & Y,) = (T, sY,)e (T, 84,)® ... &(T, 84,) 


132 Devi Datt JOSHI 


où LEE CNE i;2;3e, je 08 


i 
A partir de cette représentation on peut définir une mesure produite : 
À = AO, 8.218 N4u5 SENS SE 


\ est aussi une mesure de probabilité. De même on peut définir une 
autre mesure de probabilité : 


Q = (u, ® v,)®@...œ(u,@ v,), 

tes La \ Le 1 = 1 28 » n 
V, bg Ps 
ll 

D'après le lemme 2, ona: A<«Q , 


et si l'on désigne par Ÿ(E&) la dérivée de Radon-Nikodym de À par rap- « 
port à Q, ona(cf. lemme 3) : 


+(6)= TT£(x,, 7) 
où ANR EE MES ARC (Si) 


Par conséquent : 


J [2 Log f{(x,, y.) | da 


= Zf  Logfx, y)4a(x,y)=nR. 


ee Ÿ (€) dA 


ce qui démontre la seconde propriété. 


La propriété d'additivité nous donne, d'après la loi des grands 
nombres, le théorème suivant. 


THEOREME 6 : 


Soient e , 5 deux nombres positifs arbitrairement petits. On peut 
alors trouver un nombre entier n,(£, 8) tel que pour tout nombre entier 
nine 


Pr{|lLogr(D-R| <ef}>1-5. 


C'est-à-dire que pour n suffisamment grand, l'espace produit à 
2n dimensions (TT(X; @ Y.), (T;@V;)) se décompose en deux ensem- 


(5) (5 


bles mesurables W °’, et W (l'ensemble complémentaire), tels que : 
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à ONE SR 2e 


et que, pour tout ee W!{5) : 


| + Log Ÿ (E)-R |<e 
c'est-à-dire que : 
entR-Ee) < Ÿ (E) < enlRr+e) , 
LE THEOREME FONDAMENTAL : 


Considérons de plus près l'espace produit à 2n dimensions 
(TX: ® Y;), TI (T; 8 V:;)). Notre notation signifie que nous considérons 


tout point € de cet espace comme une suite de couples, 
£ El (&,; V1: (X,, A OpO, DEP (x, Yh) } 


Les mesures À et Q sont définies par rapport à cette représen- 
tation. Mais tout point de cet espace à 2n dimensions peut être aussi 
considéré comme un couple de suites (u, v) où : 


use rte X,) 


M6 ca 2 rt) 


Dans ce cas, si (U,‘U) et (V, ? ) représentent respectivement les es- 
paces produits à n dimensions de (X,® ) et de (Y,‘4Y) avec eux-mêmes, 
c'est-à-dire si : 


(UM) =(X, ®@... DER SE) De. En) 
et (AMIE RES ho. ANT e 2e A") 


DO DT Vi rec, PIE 2 NS 


l'espace produit à 2n dimensions peut être représenté comme l'espace 
a 


produit U ® V de points (u, v) avec le corps borélien U @ * 


A partir de cette nouvelle représentation on peut définir les me- 
sures produites qui sont des mesures de probabilité : 


MA=H ONU NON NOUS; D = a'H 


NV Or DER TOIVE VAR 
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respectivement sur (U,‘U)et (V,T). De même, pour tout point : 
LC) 

de l'espace U, on peut définir une mesure : 


NV AO AIC ET ALORS SUR (VC) 
1 2 n 

Les mesures N, ont des propriétés analogues à celles des mesu- 
res v,, à savoir, pour tout point uœ= U, N, est une mesure de proba- 
bilité sur (V,Ÿ) et, pour tout ensemble mesurable GE Ÿ, N,(G) est 
une fonction mesurable (‘U) définie sur U. La première propriété est 
évidente, Pour démontrer la seconde il suffit de considérer la famille 
5 d'ensembles GE * pour lesquels N,(G) a cette propriété. On voit fa- 
cilement que 4 contient la réunion de toute suite dénombrable d'ensem- 
bles disjoints ainsi que la limite de toute suite monotone d'ensembles 
appartenant à. Comme contient évidemment tous les rectangles" 
mesurables de la forme : 


Ge Gone Lo) GG, 


elle contient forcément le corps borélien Ÿ. Par conséquent, pour tout 
ensemble GE, la fonction N (G) de u est mesurable (U). 


À partir de la mesure M définie sur {U,4) et de la famille de 
mesures N, définies sur (V,%), on peut définir une autre mesure de 
probabilité N sur (V,?}) par : 

N(G}e 1 N,(G) dM(u), GE Ÿ. 
U 


(cf. lemme 4), La mesure N ainsi définie s'identifie avec la mesure N 
définie plus haut. Plus précisément, pour tout ensemble GE ?, on a: 


N(G) = N(G). 
La relation est vraie pour tout ‘'rectangle'' mesurable, 
GE Ge Gore AMG 
car : 


N(G) 


1 N,(G) dM(u) 
= . 6: 2e ve, (Gr, (G,)... 1, (G)d(u,8.. Su JG ex, ) 
Mn J v, (G)dutx) = f v(G) = NO). 


l=1 x À EE 


L'INFORMATION EN STATISTIQUE MATHÉMATIQUE 135 


Elle est évidemment vraie pour toute réunion d'un nombre fini de 
rectangles" mesurables disjoints. Par conséquent, elle est vraie pour 
tout ensemble mesurable GE ?. 


Nous voyons donc que ces mesures M, N, et N, sont liées entre 
elles par les relations du même genre que celles qui existaient entre 
les mesures h, v etv,. Ainsi tout théorème démontré pour ces der- 
nières resterait valable pour les premières. Par exemple, pour toute 
fonction g(v) non-négative et mesurable (+), on a : 


J g(v) dN(v) = de dM(u) ul g(v) AN, (v), GE v. 


(cf. théorème 2). De même, pour tout ensemble mesurable EE @ ? de 
l'espace produit U @ V, la fonction N,(E,) de u est mesurable (‘U)(cflem- 
me 5). Ceci nous permet de définir une mesure de probabilité L sur 
(US V,U87). Comme la mesure À, la mesure L se définit par : 


L(E) = j. N,(E.) dM(u), EE 8?. 
Ü 


Pour toute fonction h(u,v) non-négative et mesurable (U®8T), on a : 


{ h{u, v) dL(u, v) = jl dM(u) | hu, v) AN,(v), EEU eV 
E U QE, 
(cf. théorème 3). Et finalement, la mesure L est absolument continue 
par rapport à M @ N (cf. théorème 4). 


Les mesures Let M & N sont respectivement identiques, dans un 
certain sens, aux mesures À et 9. La correspondance qui à chaque point : 


(x,, X5 DES RE AT CN OO vo) 


de l'espace U @ V associe le point : 


(CE Yi), (x v2); SHÉROAÈSE Y1)) 


de l'espace TT (X; &Y:), définit une transformation bi-univoque entre 


les espaces mesurables (U 8 V,'U @ V)et ( [T(X; ® Y;), [TT (4,8 V;)). 


1 
Cette transformation, ainsi que son inverse, est une transformation 
: * 
mesurable et elle conserve la mesure en ce sens que l'image E de tout 
ensemble E appartenant à U @ Ÿ appartient à [] (4,8 ‘V;) et que : 
! 


DIE) EN (E (M & NIKE) = Q(E') 


Sil'onconsidère maintenant sur l'espace (U @ V, U @ T) la fonc- 
tion : 
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Gi (UV) EME) 
Où SU (KL EX UE V'EU(PE Vat-eleln) 


et es Gien CM sante y,)) 


on voit facilement, d'après la discussion sur les deux représentations 
différentes de l'espace produit à 2n dimensions, que : 


L(E) = ve o(u, v) d(M ® N) (u, v) 


pour tout ensemble mesurable EE ‘U @8 *. La fonction o(u, v) peut donc 
être considérée comme une des déterminations de la dérivée de Radon- 
Nikodym de la mesure L par rapport à M ®@ N. On a aussi : 


"A Log o(u, v) dL(u, v) =nR 
u @v 


On peut également réinterpréter le résultat découlant de la loi des 
grands nombres pour ce cas. Eneffet, on peut dire qu'étant donnés deux 
nombres positifs « et 5 arbitrairement petits, l'espace U @ V se dé- 
compose, pour n suffisamment grand, en deux ensembles que nous no- 
terons toujours par w (5) et w (5), tels que : 


Lea e 
et que : entree 9 (tu; v)a<rensniel 


pourtout point (u, v}e= W (3) . On peut maintenant démontrer le théorème 
suivant : 


THEOREME 7 : 
Pour n suffisamment grand : 


ue Je < (M 8 N)(w (°) 2e ire 4 


Pour tout point (u, v)e= w 1 GN A à 


entR-e) < o(u, v) < e"tR+e) 


D'où : e"tR-€) (M © NW?) < Les o(u, v) dM@ N)(u, v) 
wW 


< ere (Me N)«w)) ; 
c'est-à-dire : 


(M & N)cwl8])) entre > L(wW(S)) <(M 8 NON eo 
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Si l'on considère maintenant les inégalités : 
PH RrLWE) 2 
on obtient le résultat voulu. 
rare maintenant l'intégrale : 


[ su, y aw,ce v 

 G 

D'après le lemme 10, cette intégrale définit, pourtout pointuEeU, 
à l'exception d'un ensemble de M-mesure nulle, une mesure de pro- 
babilité sur (V,?). 


THEOREME 8 : 


Si l'on désigne par w) la section par le point u de l'ensemble 


5 : 
(3) alors, pour n suffisamment grand, on a : 


W 
N(W. (5) < ere 
pour tout ue U, à l'exception d'un ensemble de M-mesure nulle. 


En effet, pour tout point u& U pour lequel W. (5) n'est pas vide, 
on à : 


erntR-e) < o(u, v) € e NR+E) 


D'où : ss 
NOW) etes | © (u, v) AN(v) < N(W°/) "°° 
Li 


Mais pour presque tout point u œU, on a : 


1 Qu, v) AN(v) « 1. 
(5) 


Lr 
Par conséquent : 


) _n(R-e) 


NW) ce 


Par contre, si le point u EU est tel que l'ensemble w (5) est vide, ce 
résultat est évidemment vrai. Le théorème est ainsi démontré. 


Nous pouvons maintenant entreprendre la démonstration d'unthéo- 
rème analogue au théorème fondamental de la théorie de l'information. 
Le raisonnement utilisé sera celui qu'emploie Feinstein (1954) ; (voir 
aussi Khintchine (1956)). Le théorème 8 qui nous servira à notre dé- 
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monstration n'étant valable que pour les points u à l'extérieur d'un en- 
semble de M-mesure nulle, nous supposerons, dans tout ce qui suit, 
que cet ensemble de mesure nullen'est pas pris en considération. Ainsi 
toutes les fois que l'on parlera -d'une propriété vraie pour tout point 
uŒU, il sera sous-entendu qu'il s'agit de tout point u à l'exception 
de cet ensemble. 


Soit C la capacité de la ligne de transmission. Par définition il 
existe une mesure de probabilité ue on définie sur (X, ©) telle que 


R(u)>C-T, 


où 8 est un nombre positif arbitrairement petit. Ayant choisi u on ob- 
tient les mesures v et À. Soit L, M, N, et N, les mesures de probabi- 
lité correspondantes sur l'espace produit (U & V,‘'U @ *). 


Ainsi, d'après le théorème résultant de la loi des grands nom- 


bres (théorème 6) on peuttrouver, pour n suffisamment grand, un sous- 
ensemble WC U 8 V tel que : 


2 

(i) L(W) > 1 5 : 
8 Q 

(ii) e"tR-5) 20 (u, v) < en 


pour tout point (u, v)e W. 


Et, d'après le lemme de Feinstein (lemme 8), siF est l'ensem- 
ble des points u pour lesquels : 


Ci 
NAN e 


u u 


ON À: 
M(F) >1-06 


Soient maintenant F , F , .. .,F, les ensembles deux à deux dis- 
joints, pour lesquels les conditions suivantes sont satisfaites. 


1 = Pourtout F. (MEN 2 M), il'existe un ensemble B;tel 
que : 


pour tout point ue F  CréStRasdiren: 


PE 
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» 


ve 
HE) . N,(B;) dMu) > 1 - 0 


8 
DANCE ) SES 
3/ - Les ensembles B; sont deux à deux disjoints. 


4/ - La famille ie he re F } est une famille maximale, 
c'est-à-dire que si l'on y ajoutait un autre ensemble, l'une au moins 
des trois premières conditions serait violée. 

THEOREME 9 (Le théorème fondamental) : 

Pour n suffisamment grand, on a: 

n(C-20) 


me 1e 


Posons : e We 4 F 
Ft DM Ur AURRE 


Ptspourtout UE F (à condition que l'ensemble F - À ne soit pas 
vide) considérons l'ensemble : 


Es Wii M, N (Ù 8) 
J 


= W, - W,.N\ B (B=U8B;) 
J 
On voit que *, est disjoint de tous les B; et que : 
N(E,) < N(G) <e"r?) (Théorème 8) 
Comme la famille {À s Jets 2-0, m'est. une fémille maximales 
on devrait donc avoir (si l'on suppose que tout ensemble d'un seul point 
u est mesurable). 
NP CESR MES 
pour tout point ue=F - F. C'est-à-dire : 
N,(W, ) - NW, NB) <1-8 


NAQB)e NME (Le20)%5. (1 -D-a-0)-5. 


Ê 
C'est-à-dire N(B)> 2 ? 


pour tout point tuer - F. Par contre, pourueF, ona: 
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N'CB) EE 


tel que : 


N(B) = Î N(B) dM(u) > x fs N (B) au) + J. N,(B) dM(u) 


> Ê MF - F)+(1-9)M(F) Lemor+(1- à St 


> SM(F) (sie JS SU - 6) (car M(F) >1-6) 


e -n(R 
D'autre part : N(B) > N(B;) < me à 
j=1 
et par conséquent : 


Q e 
0 CHR 2 


ss S(1-0)ernte-sr 


que l'on peut finalement écrire : 
m > e”(c-20) 
ce qui échève la démonstration. 


Ainsi, pour n suffisamment grand, on peut trouver un nombre 
m > e”(C-28) de sous-ensembles F deux à deux disjoints tels que la pro- 
babilité conditionnelle pour que le message reçu v se trouve dans le 
sous-ensemble B. lorsque le message transmis u appartient à F; est 
très proche de l'unité car : 


Le J 
M(É) . N (B;) dM(u) >1-68 
J 
Les sous-ensembles B; sont, eux aussi, deux à deux disjoints, et ainsi 
chaque fois qu'un message reçu v appartient à un sous-ensemble B; on 


peut être sûr que le message transmis u appartenait au sous- ensemble 
F. , l'erreur totale d'identification étant inférieure à 8. 
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CHAPITRE IV 


L'INFORMATION EN STATISTIQUE MATHÉMATIQUE 


L'INFORMATION DE FISHER - 


C'est M. Fisher qui a introduit pour la première fois le concept 
d'information en statistique mathématique. Il définit l'information I(o), 
associée à la densité de probabilité f(x, 6 ), par : 


= L 1 o f(x, 8 ) 
LE ee ee mind 


Fisher se plaçait dans le cadre d'un problème précis, celui de 
l'estimation des paramètres d'une densité de probabilité. Sa fonction 
d'information est ainsi intimement liée à sa théorie d'estimation ou 
plus précisément à deux notions, celle de la précision d'une estima- 
tion et celle d'un résumé exhaustif. 


Dans la théorie fishérienne de l'estimation, la précision d'une 
estimation est mesurée par l'inverse de la variance de l'estimation ; 
autant la variance est petite autant la précision est grande. La liaison 
entre cette variance et l'information I(8) est exprimée par l'inégalité 
bien connue trouvée indépendamment par Cramer (1946), Darmois (1945), 
Fréchet (1943) et Rao (1945). Quant à la relation qui existe entre un 
résumé exhaustif et l'information I(8) Fisher y revient à plusieurs re- 
prises, disant qu'un résumé exhaustif contient la totalité de l'informa- 
tion contenue dans un échantillon. La première propriété ne concerne 
que le problème de l'estimation, mais la seconde peut être considérée 
comme une propriété générale que doit posséder toute fonction d'infor- 
mation. Nous préciserons cette idée par la suite. 


Notons, d'autre part, deux autres propriétés importantes. Pre- 
mièrement, l'information I(8) n'est jamais négative ; on a toujours 
I(8) > 0. Deuxièmement, I(8) est additive pour les observations indé- 
pendantes ; l'information moyenne contenue dans un échantillon obtenu 
à partir de n tirages indépendants est égale à nI(6). 
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L'informationI(e) nous fournit donc un renseignement sur le pro- 
blème de l'estimation. Si l'on connait I(8), on connait la précision que 
l'on peut atteindre (l'inégalité de Cramer-Darmois-F réchet -Rao), ce 
qui permet, par exemple, de juger de l'efficacité d'une méthode d'esti- 
mation. Mais l'information I(8) perd son importance dès qu'il s'agit 
d'un problème autre que le problème de l'estimation. Ainsi, il est utile 
de chercher les fonctions qui pourraient être les fonctions d'informa- 
tion pour d'autres problèmes de statistique mathématique, celui des 
tests d'hypothèse par exemple. Il devient alors nécessaire de dégager 
d'abordquelques unes des propriétés générales d'une fonction d'infor- 
mation. Nous le ferons en nous inspirant des propriétés de caractère 
général que possède l'information I(8) de Fisher. 


PROPRIETES GENERALES D'UNE FONCTION D'INFORMATION - 


Nous prenons comme point de départ un espace mesurable 
(X, T&) sur lequel est définie une famille M de mesures de probabilité. 
L'ensemble, (X,® ,9) constitue l'espace d'observations (‘sample space"), 
ettoute information sera définie par rapport à cet espace d'observations. 


L'information moyenne contenue dans l'espace (XX, ,91t) est une 
fonction numérique bornée : 


Gi 2 


On peut définir également, si les conditions du problème le permettent, 
l'information apportée par une observation xEe X comme une fonction 
de point i(x;91) telle que l'information moyenne I(1;X) s'exprime comme 
l'intégrale de i (x;t) par rapport à une mesure H&=3IMMconvenablement 
choisie, 


La première propriété exigée est que l'information ne soit jamais 
négative, que l'on ait toujours : 


IE) 0: 


On ne demandera pourtant pas que la fonction i(x;91) ait aussi cette 
propriété. Il est concevable qu'une observation apporte une informa- 
tionnégative. Tout ce que l'on demande c'est que l'information moyenne 
soit non-négative. 


La seconde propriété est celle d'additivité. L'information moyenne 
apportée par n observations indépendantes doit être égale à n fois l'in- 
formation moyenne d'une seule observation. En langage mathématique 
SE 


(X 8 X,T 8 &,9n 89h) 
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est l'espace produit cartésien à deux dimensions de l'espace (X, 4), on 
doit avoir : 


I(Me MN; X @e X) = 2I (9; X), 
et de même pour un nombre fini quelconque de dimensions. 


Latroisième propriété est celle qui concerne le résumé exhaustif. 
Il y a lieu de préciser le sens de la phrase de Fisher : l'un résumé 
exhaustif contient la totalité de l'information". 


Dans le cas général où nous sommes placés, la notion de fonction 
d'observations (‘'statistic'') est remplacée par celle de transformation 
mesurable. Si T est une transformation mesurable de l'espace mesu- 
rable (X, +) sur un autre espace mesurable (Y,V}), elle définit une 
famille de mesures de probabilité sur (Y,‘U) correspondant à la famille 

AM. En fait, à toute mesure HE IRcorrespond une mesure u T7 sur 
(Y, V) définie par : 


En tE) 
où on a : 
EE 4, F=T (E) 
Nous noterons cette nouvelle famille de mesures T°" 


On obtient ainsi, par une transformation mesurable T, un nouvel 
espace d'observations (Y,"Y,9nN T-!). L'information associée à ce nou- 
vel espace ne doit pas être supérieure à celle associée à l'espace 
CC Te), c'est-à-dire que: 


To 0 VerT'ONe x) 


Il est normal d'exiger que l'information possède cette propriété, car 
une transformation mesurable représente une sorte de groupement des 
observations antérieures et un tel groupement ne doit pas augmenter 
l'information. L'information de Fisher a également cette propriété. 
(Darmois (1936), p.27 ; Doob (1936), théorème 2). 


Ceci dit, nous pouvons maintenant expliciter le rapport entre 
l'informationet le résumé exhaustif. Si la transformation T est un ré- 


sumé exhaustif, on doit avoir : 


HOMTS:Y) = I{h: X).. 
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On pourrait énoncer une condition plus forte à savoir que l'on ait éga- 
lité si, et seulement si, la transformation T est un résumé exhaustif. 
Nous pensons néanmoins que cela n'est pas nécessaire. 


Ayant énoncé ces propriétés générales, étudions maintenant deux 
problèmes particuliers, le problème des tests d'hypothèse et celui de 
la discrimination. 


TESTS D'HYPOTHESE ET INFORMATION - 


Supposons que sur l'espace mesurable (X, &) on ait défini deux 
mesures de probabilité u et v qui correspondent respectivement à deux 
hypothèses, l'hypothèse à tester et l'hypothèse alternative. Selon la 
théorie de Neyman- Pearson un test de l'hypothèse u contre l'alterna- 
tive v est le choix d'un sous-ensemble R, de X, appelé région critique, 
de telle sorte que l'on rejette l'hypothèse y toutes les fois que l'obser- 
vation x X se trouve dans R,. A toute région critique R,, on associe 
deux erreurs, l'erreur a du premier type : a=u (R;)ret/l'erreurP'du 
SéCONd type PE VI(R RE 


où R, est l'ensemble complémentaire de R. On appelle puissance de 
test la quantité : 


LES. Sy (R,) 

Pour une valeur déterminée de « (0 < «x < 1), le meilleurtestest 

celui qui rend minima l'erreur du second type ou bien, ce qui est iden- 

tique, celui qui rend maxima la puissance de test. Il s'agit donc de 

trouver un sous-ensemble mesurable R, de X tel queu (R,) = « et tel 

que pour tout sous-ensemble mesurable R pour lequel u(R) =« on ait 
v(R )>v(R): 


Supposons que les deux mesures u et v soient absolument conti- 
nues par rapport à une troisième mesure de probabilité À définie sur 


le même espace (X, 4). Il est toujours possible de trouver une telle 
+v 
g par exemple). Désignons par f(x) et g(x) respective- 


mesure (A= : 


ment les dérivées de Radon-Nikodym de u et de v par rapport à À. Il 
est bien connu que le meilleur test est celui pour lequel la région cri- 
tique R, est l'ensemble des points x E X tels que : 


f (x) 
gx) < * > 


k étant choisi de telle sorte que l'on aitu(R )=«. 
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Nous définissons alors l'information apportée par une observation 
x X comme : 


i(x; u/v) = log 


et l'information moyenne comme : 


: 1 Ë 
i (u/v) = 1 log es du (x) = J f(x) 10g CE dA (x) 


Nous définissons également l'information contenue dans un sous-ensem- 
ble mesurable E © comme : 


1 ù f 
AUDE » f(x) log = & dA (x) 
E 


Ces définitions sont dues à Kullback et Leibler qui ont aussi dé- 
montré que la fonction I(u/v) possède toutes les propriétés générales 
d'une information que nous venons d'énoncer. Ils l'appellent informa- 
tion de discrimination entre u et v. Nous préférons plutôt l'appeler in- 
formation de test de l'hypothèse u contre v. Et ceci pour deux raisons : 
d'abord parce que la fonction I(u/v) n'est pas symétrique par rapport à 
u et v ; ensuite à cause de la liaison qui existe entre I(u/v) et la méthode 
de Neyman-Pearson, liaison que nous allons établir dans ce qui suit. 


Soit R, la région définit plus haut. On voit facilement que, pour 
tout sous-ensemble mesurable RE pour lequel u(R) = « on a : 


L (u/v) 212, (u/ v) 


De même : 


Lu/)< le (u/v), 


R et he étant respectivement les ensembles complémentaires de R et 
de R,. La méthode de Neyman-Pearson équivaut ainsi à choisir parmi 
toutes les régions critiques celle qui englobe le minimum d'informa- 
tion ou bien de choisir parmi toutes les régions d'acceptation celle qui 
englobe le maximum d'information. 


Considérons maintenant l'espace produit cartésien (U,‘U) à n di- 
mensions de l'espace (X, +). Désignons par L, M et N les mesures 
produites correspondant respectivement à À, het v. Les mesures M et 
N sont absolument continues par rapport à la mesure L, et si l'on dé- 
signe par o(u), Ÿ(u) les dérivées de Radon-Nikodym, on a : 
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o (u) = f(x,) f(x,) ... f(x) 


Ÿ (u) = g(x,) g(x,) ... g(x,) 


où 
RTC AR Re te 
L'additivité de l'information nous donne : 
I(M/N) = J og) am (u) = n Î 158 a AT tu 
u Ÿ (u) g(x) 


Ainsi, d'après la loi des grands nombres, étant donnés € et 5deuxnom- 
bres positifs arbitrairement petits, on peut trouver un nombre entier 
n,(e, 5) tel que pour tout nombre n > n, on aït : 


M {ui | jose - P(u/v)et = 1-5. 


L'espace U se décompose ainsi en deux sous-ensembles W et W 
(ensemble complémentaire) tels que l'on ait : 


NNDERIESSS 
et tels que pour tout point ue W on ait : 


e" L'(w/vi-e] ® (u) < el'twvire] 


d'où (cf. chap. III, théorème 7) : 
(1-5)e" Ciouwvire] à N(W) <e-" 172220 


On pourrait alors prendre le sous-ensemble W comme région critique 
et on aurait : 


M(W)<5 , N(W) > 1- e"l'twri-el 
Ainsi on voit que lorsque le nombre d'observations augmente, l'erreur 
du premiertype tend vers zérotandis que la puissance de test tend vers 


l'unité. De plus on a : 


di 
7" M(W) 


; log . ) dM (u) , 
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et donc : 
n [l(u/v) -e] < I, (M/N)<n[H{u/v)+e ] 


ce qui montre qu'à la limite le sous-ensemble W (région d'acceptation) 
contient à peu près la totalité de l'information I(M/N). 


L'importance de l'information I(u/v) pour les tests d'hypothèse 
est encore mieux révélée par le théorème suivant qui généralise un ré- 
sultat de Shannon ((1948), théorème 4), Ce théorème nous permet de 
démontrer que pour toute valeur fixée de l'erreur « du premier type 
l'erreur p du second type tend exponentiellement vers zéro lorsque 
ce nombre d'observations augmente et que cette décroissance dépend 
de l'information I(u/v). Bien entendu, ceci n'est vrai que si l'on em- 
ploie le meilleur test au sens de la théorie de Neyman-Pearson. 


THEOREME ! : 
Soit a un nombre arbitraire compris entre 0 et 1 (0 <a <1). Soit 


W, et W, (l'ensemble complémentaire de W,) deux sous-ensembles de 
l'espace U tels que : 


pourtout pointu = W, etu, = W,. SiM(W,)=a, ona pour n suffisam- 
ment grand : 


(a - 5) e-"L'twri+e] 2 N(W.) <e-" [itwy/v)-e] 


où & et 5 sont deux nombres positifs arbitrairement petits qui tendent 
vers Zéro lorsque n tend vers l'infini. 


Nous avons déjà vu que pour n suffisamment grand l'espace Use 
décompose en deux sous-ensembles W et W tel que l'on aït : 


e"l'twvi-e] ®(u) eenl'twvie] 
y (u) 


pour tout point ue W, et tel que M(W) > 1-8. 


Le sous-ensemble W contient évidemment tous les points u pour 
lesquels : 


EE > e"litwvite] 
y(u 
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Ilcontient aussi une partie du sous-ensemble W. Les points u pour les- 
quels : 


9 (u) n [itw/v)-e] 
Ÿ(u) Ca 


ne font pas partie de W,. Ainsi pour tout point u = W;, on a : 


ce qui donne : 


Î Fe dN(u) > N(W,) er l'twv1-e] 


clestacdires 

M(W,) > N(W,) e" l'twv1-e] 
Comme M(W, ) < 1, on a : 

NW, ) < erlltwvire] 
ce qui démontre une partie du théorème. 


Désignons par S, l'ensemble des points u appartenant à la partie 
commune de W, et W. Ainsi pour tout pointues, on a : 


o(u) < el [itw/vi+e] 


On a donc : 


MSD= | ru dN (u) < N(S,) e"l't#v#e 
ei 
Mais : 
M(S:) + M(W, - S:) = M(W.) = a 
et : 


MES Bn) LE 


On a ainsi : 


M(S.) > a -5 
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D'autre part : 

N(S,) < N(W,) 
ce qui donne finalement : 

(a -5) <N(W,) el'twre] 
OÙ: 

TR PER RUIL 
et le théorème est complètement démontré. 


Pour revenir au problème du test d'hypothèse remarquons qu'au 
lieu de choisir dans l'espace U une région critique de ‘taille'' «(erreur 
du premier type) on peut choisir une région d'acceptation d'un seuil de 
confiance a = 1 -«. On voit que le meilleur test selon la théorie de 
Neyman-Pearsonconduirait à la même décomposition de l'espace U que 
celle considérée ci-dessus. Le sous-ensemble W,(a = 1 -«) est la ré- 
gion d'acceptation et nous voyons que l'erreur du second type, c'est-à- 
dire N(W,), tend vers zéro avec n, plus précisément : 


N(W.)< e-" [itw/v)-e] 


Tous ces résultats ne sont valables que si l'intégrale qui définit 
l'information existe. Or il est facile de trouver des exemples où cette 
intégrale est infinie. Il se peut aussi que des deux informations I(u/v) 
etI(v/u), l'une soit finie et l'autre infinie. Ceci est montré par l'exem- 
ple suivant que nous a communiqué Schutzenberger. 


Soient : 
LERSIOMEIUNE 
n(log n)° 
2 1 
K'! = n CO 
n=2 n(log n)° 


Considérons deux lois de probabilité : 


-1 
PER — Ne 
n(log n)° 
-1 
CE ue , n= 2,58, ...) 
n{(log n)° 
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On a : 
UPIP) = SN lo 
n=2 ( 
œo -] 1 
= D À Dons . 
"? n(log n)° K 
1 
2 a C0 
D n logn 
etr 
ee) Pp! 
= Û 2 
T(ET/2E) 2 PISIOS P. 
Craie Le er 
ET SE RE, log - 7" 


ren (loS n) 


s 1 


vw Ÿ 9, < 0) 
Fanaiogn 


INFORMATION ET PROBLEME DE DISCRIMINATION - 


Considérons le problème de discrimination entre deux mesures 
de probabilité u et v définies sur un même espace mesurable (X,æ). 


D'après Welch(1939) il s'agit de décomposer l'espace X en deux sous-. 


ensembles mesurables disjoints R, et R,(R, ÜUR,= X) appelés respec- 
tivement région d'acceptation de x et de v. Si l'observation xE X se 
trouve dans R, on accepte la mesure u, sinon on accepte la mesure v. 
Cette décomposition doit être faite suivant un critère donné d'optima- 
lité. On peut, par exemple, choisir parmitoutes les décompositions œlle 
qui rend minima l'erreur totale c'est-à-dire la quantité : : 


U(R,) +v(R,) : 
ou bien choisir parmi les décompositions telles que : 
H(R,) =v (R,) 


celle qui rend minima cette quantité (l'erreur commune). Nous pren- 
prendrons comme critère la réduction d'une fonction linéaire des er- 
reurs. C'est-à-dire que la décomposition choisie sera celle qui rend 
minima la quantité : | 


Vus ŒiM (R,) + v(R,) 
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où aet B sont deux nombres positifs déterminés. (a+B =1), 


Supposons toujours que les mesures u et v soient absolument con- 
tinues par rapport à une troisième mesure de probabilité À définie éga- 
lement sur(X,Ææ), et désignons par f,(x) et f(x) les dérivées de Radon- 
Nikodym correspondantes. Nous définissons alors l'information de dis- 
crimination comme : 


I(u, v) =- log [inf 4 ET) (LH) 4 dA (x) 


OCESL LE y 


I(u, v)est la fonction proposée par Chernoff (1952) comme une mesure 
de divergence entre deux lois de probabilité. 


Nous démontrerons d'abord que la fonction I(u, v) possède les 
propriétés générales d'une information. Désignons parpP (t) la quantité 


p (t) = vi [LI [fm It dA(m , 0<t<1. 


p(t) peut être considérée comme une généralisation de la fonction d'af- 
finité de Bhattacharya (1943) qui mesure, en quelque sorte, combien kH et 
v sont proches l'une de l'autre. Posons ensuite p = infp(t). On a ainsi 
uv) = - logp . ê o<t<1l 


L'inégalité de Holder nous donne les lemmes suivants : 


Lemme 1 : 


Lemme 2 : 


Pour tout sous-ensemble mesurable EE Æ on a : 
[inc 46 dù @ < (4 (B)1° 19 ET 
QE 


Une transformation mesurable T de (X,Æ) sur un autre espace 
mesurable (Y,4Y) définit sur (Y, V) les mesures de probabilité uT 
vT-let AT correspondant respectivement à h, v et À définies sur 
(X; T). Les mesures LT “2 yT-'sont Se lie continues par rap- 
port àlamesure AT. Désignons parg, (y), g{y) les dérivées de Radon- 
Nikodym correspondantes. La fonction p(t) définie par rapport à l'es- 
pace (X, &)se remplace alors par la fonction p, (t) définie sur l'espace 
(Y, Y). On a: 


p. (t) = no BI EH ITATE (). 


Y 
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THEOREME 2 : 
Pourtoutetransformation mesurable T de(X, d)sur (Z, AIDÉONEAE 
p, (t) > p(t) 


On peut toujours écrire : 


k DORE 
p(t) = | nn. d v(x) 


p. (#) Er dv T (y). 


D'après un résultat bien connu (Halmos (1954), théorème 39 c) 
on a : 


HR 
0e J CEE avt 


où g,T(x) et g,T(x) sont deux fonctions mesurables (Prat) définies 
sur X à partir des fonctions g,(y) et g,(y) définies sur Y (voir Halmos 
(1954), p. 162). Mettons : 


ne 


8, T(x) 


et soit Ge l'ensemble : 


n k k+ 
qe Lie Labo D < = | ; Ke OMR 


Alors : 
(CAE CNE ER 
e k k 
Soit: œ 
= à k (n) 
S, = à EU (G, ) 
Alors 
lim S = “ (gx) dv(x). 
n x 
Or, pour xeG;"’, on a : 
1 kK+1,+ 
=) ee 
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Donc : ae . : 
1 a as ]eRE 
Cr v(G M) a g(x) Tee le va) 
gr} 
k 
c'est-à-dire : 
{n) 
u (G 
Ai es Es Er 
ET" 
ou : 
(n) + 
£[ |< + 
$ v (Gi?!) 2" 
On a ainsi : 


| Le) dv(x)= lim 5, 
=lim Y Cut )] MAG) 


k=o 


x 


Mais, d'après le lemme 2, 
\ t 1-t dà (x) 


ES 
dl 


P= f LG 61 6) 
Ex x k=o cu 


in DC 2 (Gt = (0 
n k=o 
Le théorème est donc démontré. 


D'après Halmos et Savage (1949) si la transformation T est un 
résumé exhaustif pour une classe 9it de mesures de probabilité définies 


SUMES-C) on a 
Les TG) 


pour toute mesure HS 9 sauf sur un ensemble de À-mesure nulle, Ainsi 
on voit facilement que si la transformation T est un résumé exhaustif, 


ONTAS 
p. (t) = p(t) 


Soient u @u: v®v les mesures produites définies sur l'espace 
produit cartésien (X #8 X,%4® Æ). Si l'on désigne par p'?/(t) la fonction 


correspondant à p(t), on a évidemment 


Pt2{t) = [p(t) J 
A partir de ces propriétés de la fonctionp(t), on déduit facile- 
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ment que la fonction I{u, v) possède toutes les propriétés généraies 
d'une information. On a ainsi : 


1/-I(u,v)>0, avec égalité si, et seulement si, les mesures 
u et v sont identiques. 


2/0 I(u;v)<#o, saut dans le cas où MALE 
3/ - KHugu,vg@ev)=21I(u,v). 


4/ - I(u, v)n'augmente pas sous les transformations mesurables 
et reste invariant si la transformationest un résumé exhaustif. 


= 


Ajoutons à cela la propriété de symétrie, on a : 
TU OEM TO) 


Revenons maintenant au problème principal : pourquoi nous appelons la 
fonction : 


I(u, v) == 108p 


information de discrimination entre u et v. Nous avions choisi comme 
critère d'optimalité la minimisation de la quantité : 


y =au(R,)+Bv(R,), (a+B= 1). 


a et B étant deux nombres positifs donnés. Il est bien connu que la 
décomposition optimale est celle définie par : 


RER: & Ê,(x)> 8 f,(R) 7 


R 


DEN LARNE LAÉUXI EP LUS 


Nous avons alors, pour une telle décomposition de l'espace (X, &) 
le théorème suivant : 


THEOREME-3-: 
AS) 


On peut toujours écrire : 


1 fr Le 
(= f Sr) dv (x) = ï. Eee du (2) 
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On obtient ainsi : 


i t + 
> JB av > (2) v(R) 


R 


De même on a : 


4 fr -t x 
PO» J CRT au Go) > (2) u(R,) 


R US 
V 


Il en résulte que : 
Fer (Re PUR) 


RE ER (E) 


DM NP ULE) 

< 2 p (t) 
c'est-à-dire que : 

AP 


Remarquons que si l'on prend « = f = 5 on obtient y<pP 


Pour un nombre n d'observations indépendantes on a donc : 
y<2p" = 2e-nltmvi< e"l'tUmvi-e] 


où e —>0, lorsque n—w, Ainsi, à la limite, l'erreur y tend exponen- 
tiellement vers zéro avec I(u, v). Par conséquent, la fonction I(u, v) 
peut bien être considérée comme information de discrimination entre 
metive | 


L'information de discrimination possède des propriétés sembla- 
bles à celles d'une mesure de ‘divergence ou ‘'distance"" entre deux 
lois de probabilité. (Pour les détails sur les différentes distances" 
voir Adhikariet Joshi (1956)). Ce qui distingue l'information de la dis- 
tance c'est la propriété d'additivité. L'information est additive pour 
les espaces produits tandis que la distance est une fonction croissante 
sans être nécessairement additive. Par contre, s'il est souhaitable que 
la distance satisfasse à l'inégalité triangulaire, il n'est pas nécessaire 
que l'information ait aussi cette propriété. Les considérations suivantes 
montrent qu'en général ces deux propriétés sont incompatibles au moins 
si l'on veut que la distance et l'information gardent un sens pour le 
problème de la discrimination. 
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Supposons que l'on ait une fonction I(u, v) définie pour tout cou- 
ple de mesures u et v et ayant les propriétés suivantes : 


(i) I(w, v)'= I(v, n°) 


(ii) (vo 0 


(iii) I(u,u) =0 

Ces propriétés sont communes à l'information et à la distance. La dis- 
crimination entre deux mesures singulières se faisant toujours sans 
erreur il est normal d'exiger que la fonction I(h, v ) ait la plus grande 
valeur dans le cas où u lv. Supposons maintenant que la fonction I(u, v) 
soit additive, c'est-à-dire que l'on ait : 


In œgu, v@v) =21I(u,v) 


La propriété d'additivité entraîne ainsi l'existence des valeurs infinies 
et l'on doit poser : 


I(u, v) = © pour u lv. 


Si l'on suppose maintenant que la fonction I(u, v) reste finie dans tous 
les autres cas on voitfacilement que l'inégalité triangulaire ne peut pas 
être satisfaite. Prenons deux mesures singulières u et v et une troi- 
LRU 


sième mesure À ( = par exemple) qui n'est pas singulière ni par 


rapport à à ni par rapport v. On a donc : 
REA) GS MT M) ce 


et : 


c'est-à-dire : 


LOL) REA EVE) EST TERRE) 


D O1 BR ww 
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SUR L'INÉGALITÉ DE SLUTSKY 
A. FUCHS 


L'objet de la présente note est de donner une démonstration très 
simple de l'inégalité entre moments connue sous le nom d'inégalité de 
Slutsky [1] et de la comparer à d'autres inégalités analogues. 


Lemme 1, 


BOUT Sy F0 D 2 10" p#rq=MS on at 
x°yt< pqt(x+y) (1) 


On remarque que (1) peut s'écrire : 


x P Y q à 
SNS 


‘il en résulte qu'il suffit de démontrer (1) pour x+y = 1, c'est-à-dire, 
en définitive, de démontrer xPy‘< pPqïpour x,y>0, xt+ty=1; p,q>0, 
p+q=1. Mais cette dernière inégalité est évidente puisque : 


xy ex (l-x) LS MaxsE XP) et proq 
x Elo,1] 


Inégalité de Slutsky. 

Soient X et Y deux variables aléatoires définies sur une même 
catégorie d'épreuves. Pour r, s>0etsiE{|X|"**}<o, E {[Y|"*°}< o 
on a: 


S 


r r+s S \r+s r+s r+s 
AA Eee 2e X +E{Y 2 
E {xl ||") < ee 2)" EUxr+Eu rl» 
Appliquonseneffet (1) à |[X| et |Y] ; pour chaque épreuveil vient : 


EM De at TE AN |) 
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d'où, en supposant E{[X|}<w, E{|Y|} <o: 


EME DIS] Rép a (EIRE OAI) (2') 

+s r+s r 
Remplaçons alors |[X| par |X|'*, |Y| par |[Y|"®, posons p = —— 
CRE — = et supposons E {[X|"**}<w, E{|Y/|""*}<æ , (2!) est transfor- 


mé en (2) qui se trouve ainsi établie. 


Lemme 2 


BOURSE VE 20 D 0 ONDES RON 
xPy <px+qy (3) 


C'est l'inégalité classique entre moyennes arithmétique et géo- 
métrique. Remarquons que si l'on essaie de majorer le second mem- 
bre de (3) par une quantité faisant intervenir la somme x + y on obtient 
px + qy< Max (p,q) (x+y). Mais comme pP q< Max (p,q), l'inégalité 
ainsi obtenue serait en général plus faible que (1) ; aussi nous tiendrons- 
nous à l'inégalité (3). 


En opérant comme ci-dessus et en supposant toujours, 
E{|X|"#}<, E{|Y|"*}<o , pour r, s > 0 on en déduit l'inégalité 


E{IX|" |Y|°} < E {xl} + 2 Eux" (4) 


10 
r+rs 
analogue à (2) et qui s'y réduit pour r=s. 


Comparaison des inégalités (2) et (4). 


Essayons de comparer les inégalités (2) et (4) ou, ce qui revient 
au même, les inégalités (1) et (3). À cet effet il suffira de comparer les 
deux quantités pr qs et px + qy pour x + y = 1, c'est-à-dire les deux 
quantités p° q*Ÿ et px + q{(1-x) = q + (p-q) x pour xEl0,1]. 


Nous excluons le cas p = q, pour lequel les inégalités (1)et (3) 
coïincident. Lorsque p f q nous pouvons toujours, sans perte de géné- 
ralité, supposer p >q; il suffirait, le cas échéant, d'échanger les rô- 
les de x et de-y. e 


Une simple étude de la fonction (de p) y = pP(1-p)}'?, pE]O,1! 
; 1 
montre que Min (p,q) < 2 <pPqt< Max (p, q), c'est-à-dire, dans notre 


1 2 
cas, 4 << p’q‘<p. Ceci entraine que la parallèle y = pP qt à Ox 
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coupe le segment de droite y = q + (p-q) x, xE[0,1] en un point d'abs- 
cisse «€[0, 1] tel que : 


Det 


q + (p-q) a = pPqt=> «= 
p=d 


; 1 
Puisque > PRE ME on a daleurs 5 < a< 1. 


Nous avons alors q + (p-q) x < pPq‘ pour 0 < x <a. Il en résulte, 
toujours dans l'hypothèse p > q, que (3) est plus stricte que (1) lorsque 
X <a (x + y) et que c'est le contraire lorsque x > « (x+y). 

On en déduit immédiatement : 


THEOREME - 


supposons r >s et posons : 


1 s 


te ae 
= ——_—_——_— 
PIS 


Alors (4) est plus stricte que (2) lorsque E{|X|"*"*}<aE{| X|"*+]Y|"} 
c'est le contraire losque E{|X|"*°}> « E |X|"*° +|Y]"S}. 


» 


REFERENCE 


CHERNENRRECEHEMS Recherches théoriques modernes sur le Calcul 
des Probabilités ; t.I. (1950) Gauthiers-Villars ; p.66. Signalons 
en passant une erreur dans le texte ; la quantité désignée à la 


: 1 
p.66 par k(r,s) n'est pas < . mais on a MK (TS) A” 
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Probabilités, Statistique, Recherche Opérationnelle 
Collection dirigée Par Georges DARMOIS, Membre de l'Institut 


Section À : Théorie des Probabilités 


ENSEMBLES MESURABLES 
ED 
PROBABILISABLES 


La Mesure des Ensembles linéaires 
la raréfaction des Ensembles de mesure nulle 


Par D. DUGUÉ 
Professeur à la Sorbonne 


Rédigé par M. BARBUT et R. JANIN 
-Dunod 1958 - 
Analysé par M. BARBUT 


Dans un exposé entièrement autonome, l'auteur présente la théo- 
rie de la mesure sur la droite, telle qu'E. Borel et H. Lebesgue l'ont 
conçue. 


Les notions fondamentales relatives aux ensembles linéaires 
étant rappelées, le schéma de l'exposé est le suivant : 


Un ensemble est mesurable au sens de Borel, s'il est obtenu à 
partir d'une infinité dénombrable d'opérations réunion et intersection 
portant sur des intervalles ouverts. Les ouverts appartiennent à cette 
classe et la mesure d'un tel ensemble est le résultat des opérations 
correspondantes d'addition et de soustraction sur les longueurs des 
intervalles ; 


Un ensemble est de mesure nulle s'il peut être enfermé dans des 
intervalles de longueur totale arbitrairement petite. 
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Les ensembles mesurables -L sont alors tels que mesures exté- 
SSSR ER = 
rieure et intérieure coïncident ; ils sont d'ailleurs réunion d'un ensem- 
ble mesurable -B et d'un ensemble de mesure nulle. 


Les ensembles mesurables-L forment un o-corps et leur mesure 
est dénombrablement additive, on en déduit la monotonie et la conti- 
nuité. 


Une fonction f sur (0,1) est mesurable si, quel que soit y, l'ensem- 


ble des points (x : f(x) < y) est mesurable -L,. 


Si f est bornée on définit son intégrale de Lebesgue par ya) 


(Riemann-Stieltjes), où g(y) = mes. (x: f(x) < y). 


On a, alors,les théorèmes d'Egoroff et de Lebesgue. Enfin, on 
étend, comme pour l'intégrale de Riemann, la définition aux fonctions 
sommables. 


Le chapitre se termine par l'exemple d'un ensemble non- 
mesurable et le théorème de Cantor-Bendixson. 


La notion générale de mesure (que par un changement d'échelle 
on peut toujours ramener à une mesure de probabilité) s'introduit sans 
ambiguité en prenant : mes. ([a, b[) = F(b) - F(a) F fonction non- 
décroissante de 0 à 1. 


Un ensemble est probabilisable suivant F, si les F-mesures 
intérieures et extérieures coïincident. Les ensembles mesurables -B 
sont probabilisables quel que soit K. 


L'exemple très détaillé de l'ensemble ternaire de Cantor illustre 
la décomposition de Lebesgue et Jordan de F. 


L'intégrale de Lebesgue-Stieltjes s'introduit de la même façon 
que précedemment à partir de la mesure F et on établit le théorème 
de Riesz-Lebesgue. 


L'ouvrage se termine sur l'examen des travaux d'E. Borel, 
relatifs à la raréfaction des ensembles de mesure nulle. 
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Section B : Statistique Mathématique 
ANALYSE DE VARIANCE ET PLANS D'EXPERIENCE 


Par 
Daniel DUGUE et Maurice GIRAULT 
- Dunod 1259 - 
Analysé par J. LARRIEU 


L'ouvrage de MM. Dugué et Girault se place dans la ligne de 
travaux consacrés en FRANCE à la statistique appliquée aux problè- 
mes concrets. Il a pour but de préciser les méthodes qui permettent 
de rechercher d'une manière statistique les causes déterminantes 
dans les phénomènes physiques. 


Un premier chapitre est consacré au rappel des propriétés clas- 
siqués de la loi normale et des lois qui en dérivent, loi de x? de Student 
et de Behrens-Fisher, ceci pour les variables à une puis à plusieurs 
dimensions. On sait en effet que les seuls résultats exploitables obte- 
nus jusqu'à présent en analyse de variance concernent les variables 
rormales. 


Dans un second chapitre, les auteurs étudient l'analyse de la 
variance proprement dite, c'est-à-dire dans une population à plusieurs 
catégories la décomposition de la variance empirique en une somme 
de termes dont certains sont toujours des estimations de la variance 
vraie, les autres n'étant des estimations que si les diverses catégories 
sont homogènes en moyenne, la variance étant toujours supposée inva- 
riable dans les différentes catégories. Le problème est traité dans 
les cas où il y a un puis plusieurs facteurs contrôlés. La comparaison 
entre les différentes estimations fournit un test d'homogénéité des 


facteurs dans chaque catégorie. 


Or, l'analyse de la variance classique exige de nombreux échan- 
tillons et par suite elle s'avère trop couteuse en de nombreux cas. 
C'est pourquoi les auteurs étudient ensuite les techniques de plans 
d'expérience qui ont pour but de diminuer la taille des échantillons 
nécessaires, ce qui perd évidemment une partie de l'information mais 
conserve l'essentiel. Le chapitre III contient la description d'un certain 
nombre de modèles (plans d'expérience) construits à partir des notions 
d'algèbre carrés latins, gréco-latins, blocs incomplets équilibrés. Les 
corps de Galois fournissent d'élégantes solutions à ces problèmes et 
donnent des solutions, sinon générales, du moins très intéressantes 
dans un certain nombre de cas précis. 


L'ouvrage se termine par une série de tables numériques fort 
utiles au statisticien pour l'application des tests employés en analyse 
de variance. 
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Série C : Recherche Opérationnelle 


INITIATION AUX PROCESSUS ALEATOIRES 
LE PROCESSUS DE POISSON - FILES D'ATTENTE - 
PANNES DE MACHINES 


Par Maurice GIRAULT 
Professeur à l'Institut de Statistique 
Maître de Conférences à la Faculté des Sciences 
de Caen 
- Dunod 1959 - 
Analysé par D. FOATA 


Le présent ouvrage est une introduction à l'étude des processus 
aléatoires, mais c'estaussi, par ses nombreux exemples, un excellent 
guide pour les praticiens ‘'désirant s'initier aux processus aléatoires 
et réfléchir à leurs utilisations''. On y montre comment on peut donner 
à certains problèmes concrets tels que les files d'attente, les pannes 
de machines ... uné structure de processus aléatoire et comment ce 
schéma mathématique permet un bon calcul de l'optimum économique. 


Le processus le plus simple et aussi le plus souvent rencontré 
dans la pratique est le processus de Poisson. Aussi est-il étudié en 
détail dès le début du livre. Il y a deux manières de le décrire : ‘'soit 
donner la loi de probabilité de l'intervalle de temps qui sépare deux 
événements successifs, soit donner la loi de probabilité du nombre 
d'événements qui se produisent dans un intervalle de temps donné". 


Plusieurs lois de probabilité dérivent de l'étude des processus 
de Poisson : fonctions eulériennes de première et de seconde espèce, 
loi de Poisson. L'auteur consacre donc un chapitre à l'étude de ces 
lois et aux liens qui existent entre elles. 


Après avoir rappelé comment on peut tester l'hypothèse qu'un 
phénomène physique suit une loi de Poisson (test du x), M. Girault 
montre, par deux exemples simples, comment on peut savoir si un 
système, qui évolue aléatoirement au cours du temps, atteindra ou 
non un régime permanent, ‘'et si oui, avec quelle rapidité". 


Puis on trouve une étude complète des processus d'engorgement 
et des files d'attente, dans les différents cas suivants : 


L t : : 3 
- arrivées ‘poissonniennes'" et durées de service expo- 
nentielles ; avec 1, 2, r postes de service. 


- arrivées ‘'poissonniennes''et durées de service constan- 
tes ; avec 1, 2 puis r postes de service. 


- loi quelconque de durée et un poste de service. 


Enfin, après quelques remarques sur les processus, l'auteur 
traite une série de problèmes et d'exemples. 
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